Fudan & Meituan LongCat präsentieren WBench für Video-Modelle

Die Fudan-Universität und das LongCat-Team von Meituan haben WBench veröffentlicht, ein Open-Source-Benchmark zur Bewertung von Videogenerierungsmodellen. WBench bewertet Modelle basierend auf physikalischen Regeln, raumzeitlicher Konsistenz und interaktiver Steuerung und umfasst 289 Testfälle sowie 1.058 Interaktionsrunden. Es unterstützt sowohl die Ich-Perspektive als auch die dritte Person und integriert Navigationssteuerung, Agentenaktionen, Ereignisbearbeitung und Perspektivwechsel. Der Benchmark verwendet 22 automatisierte Metriken und erreicht eine Spearman-Rangkorrelation von mindestens 0,94 mit den Gewinnraten menschlicher Blindtests. Die Ergebnisse zeigen, dass die interaktive Steuerung weitgehend unabhängig von der Renderqualität ist, wobei die Kamerabewegungssteuerung die Konsistenz der Agenten nicht gewährleisten kann. Open-Source-Modelle wie HY-World 1.5 und Matrix-Game 3.0 zeichnen sich in der Navigation aus, stehen jedoch vor Herausforderungen bei der Agentenidentität und dem Perspektivdrift. Der Benchmark hebt die Komplexität im Umgang mit nicht-rigiden Agenten, wie Tieren, aufgrund von Deformations- und Geschwindigkeitsproblemen hervor.