復旦大学と美団LongCat、動画モデル評価用WBench発表

復旦大学とMeituanのLongCatチームは、動画生成モデルを評価するためのオープンソースベンチマーク「WBench」を発表しました。WBenchは物理法則、時空間的一貫性、インタラクティブ制御に基づいてモデルを評価し、289のテストケースと1,058のインタラクションラウンドを特徴としています。ファーストパーソンとサードパーソンの両視点をサポートし、ナビゲーション制御、エージェントの行動、イベント編集、視点切り替えを統合しています。このベンチマークは22の自動化された指標を使用し、人間のブラインドテストの勝率と少なくとも0.94のスピアマン順位相関を達成しています。調査結果は、インタラクティブ制御がレンダリング品質とはほぼ独立していることを示し、カメラの動きの制御はエージェントの一貫性を保証できないことが明らかになりました。HY-World 1.5やMatrix-Game 3.0のようなオープンソースモデルはナビゲーションに優れていますが、エージェントのアイデンティティや視点のずれに課題があります。このベンチマークは、変形や速度の問題により、動物などの非剛体エージェントの扱いの複雑さを浮き彫りにしています。