Fudan et Meituan LongCat lancent WBench pour éval vidéo

L'Université Fudan et l'équipe LongCat de Meituan ont lancé WBench, un benchmark open-source pour évaluer les modèles de génération vidéo. WBench évalue les modèles selon des règles physiques, la cohérence spatiotemporelle et le contrôle interactif, comprenant 289 cas de test et 1 058 cycles d'interaction. Il prend en charge les perspectives à la première et à la troisième personne et intègre le contrôle de navigation, les actions des agents, l'édition d'événements et le changement de point de vue. Le benchmark utilise 22 métriques automatisées, atteignant une corrélation de rang de Spearman d'au moins 0,94 avec les taux de réussite des tests à l'aveugle humains. Les résultats indiquent que le contrôle interactif est largement indépendant de la qualité du rendu, le contrôle du mouvement de la caméra ne garantissant pas la cohérence des agents. Les modèles open-source comme HY-World 1.5 et Matrix-Game 3.0 excellent en navigation mais rencontrent des difficultés avec l'identité des agents et la dérive du point de vue. Le benchmark souligne la complexité de la gestion des agents non rigides, tels que les animaux, en raison des problèmes de déformation et de vitesse.