Fudan y Meituan LongCat lanzan WBench para evaluación de video

La Universidad de Fudan y el equipo LongCat de Meituan han lanzado WBench, un benchmark de código abierto para evaluar modelos de generación de video. WBench evalúa los modelos basándose en reglas físicas, consistencia espaciotemporal y control interactivo, contando con 289 casos de prueba y 1,058 rondas de interacción. Soporta perspectivas en primera y tercera persona e integra control de navegación, acciones de agentes, edición de eventos y cambio de punto de vista. El benchmark utiliza 22 métricas automatizadas, logrando una correlación de rango de Spearman de al menos 0.94 con las tasas de éxito en pruebas ciegas humanas. Los hallazgos indican que el control interactivo es en gran medida independiente de la calidad del renderizado, y que el control del movimiento de la cámara no garantiza la consistencia del agente. Modelos de código abierto como HY-World 1.5 y Matrix-Game 3.0 sobresalen en navegación pero enfrentan desafíos con la identidad del agente y la deriva del punto de vista. El benchmark destaca la complejidad de manejar agentes no rígidos, como animales, debido a problemas de deformación y velocidad.