La Universidad de Fudan y el equipo LongCat de Meituan han lanzado WBench, un benchmark de código abierto para evaluar modelos de generación de video. WBench evalúa los modelos basándose en reglas físicas, consistencia espaciotemporal y control interactivo, contando con 289 casos de prueba y 1,058 rondas de interacción. Soporta perspectivas en primera y tercera persona e integra control de navegación, acciones de agentes, edición de eventos y cambio de punto de vista.
El benchmark utiliza 22 métricas automatizadas, logrando una correlación de rango de Spearman de al menos 0.94 con las tasas de éxito en pruebas ciegas humanas. Los hallazgos indican que el control interactivo es en gran medida independiente de la calidad del renderizado, y que el control del movimiento de la cámara no garantiza la consistencia del agente. Modelos de código abierto como HY-World 1.5 y Matrix-Game 3.0 sobresalen en navegación pero enfrentan desafíos con la identidad del agente y la deriva del punto de vista. El benchmark destaca la complejidad de manejar agentes no rígidos, como animales, debido a problemas de deformación y velocidad.
Fudan y Meituan LongCat lanzan WBench para la evaluación comparativa de generación de video
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
