Fudan и Meituan LongCat представляют WBench для оценки видео моделей

Университет Фудань и команда LongCat компании Meituan выпустили WBench — открытый эталон для оценки моделей генерации видео. WBench оценивает модели на основе физических правил, пространственно-временной согласованности и интерактивного управления, включая 289 тестовых случаев и 1 058 раундов взаимодействия. Он поддерживает как перспективу первого, так и третьего лица, а также интегрирует управление навигацией, действия агентов, редактирование событий и переключение точек обзора. Эталон использует 22 автоматизированных метрики, достигая коэффициента корреляции Спирмена не менее 0,94 с результатами слепых тестов людей. Результаты показывают, что интерактивное управление в значительной степени независимо от качества рендеринга, при этом управление движением камеры не обеспечивает согласованность агента. Открытые модели, такие как HY-World 1.5 и Matrix-Game 3.0, превосходны в навигации, но сталкиваются с проблемами идентичности агента и дрейфа точки обзора. Эталон подчеркивает сложность работы с негибкими агентами, такими как животные, из-за проблем деформации и скорости.