復旦大学とMeituanのLongCatチームは、動画生成モデルを評価するためのオープンソースベンチマーク「WBench」を発表しました。WBenchは物理法則、時空間的一貫性、インタラクティブ制御に基づいてモデルを評価し、289のテストケースと1,058のインタラクションラウンドを特徴としています。ファーストパーソンとサードパーソンの両視点をサポートし、ナビゲーション制御、エージェントの行動、イベント編集、視点切り替えを統合しています。
このベンチマークは22の自動化された指標を使用し、人間のブラインドテストの勝率と少なくとも0.94のスピアマン順位相関を達成しています。調査結果は、インタラクティブ制御がレンダリング品質とはほぼ独立していることを示し、カメラの動きの制御はエージェントの一貫性を保証できないことが明らかになりました。HY-World 1.5やMatrix-Game 3.0のようなオープンソースモデルはナビゲーションに優れていますが、エージェントのアイデンティティや視点のずれに課題があります。このベンチマークは、変形や速度の問題により、動物などの非剛体エージェントの扱いの複雑さを浮き彫りにしています。
復旦大学と美団ロングキャット、動画生成ベンチマーク「WBench」を開始
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
