マイクロソフトリサーチと浙江大学は、強化学習を用いてテキストから動画へのモデルにおける3D幾何学的一貫性を向上させる新しい手法「World-R1」を発表しました。この手法はモデルのアーキテクチャや3Dデータセットの変更を必要としません。World-R1は、Depth Anything 3モデルを使用して生成された動画から3Dガウス分布を再構築し、新しい角度からシーンをレンダリングして元の映像と比較します。強化学習アルゴリズムのFlow-GRPOを用いて、再構築誤差、軌道の逸脱、意味的妥当性に基づき動画モデルを調整します。
この手法はオープンソースのWan 2.1モデルを採用しており、World-R1-SmallとWorld-R1-Largeのバージョンで3D一貫性の指標が大幅に改善されました。具体的には、LargeモデルはPSNRを7.91dB向上させ、Smallモデルは10.23dBの増加を示しています。ブラインドテストでは、World-R1は幾何学的一貫性において92%の勝率を達成しました。このプロジェクトはCC BY-NC-SA 4.0ライセンスのもとGitHubでオープンソース化されています。
マイクロソフトと浙江大学、3Dビデオの一貫性向上のためのWorld-R1を発表
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
