マイクロソフトリサーチと浙江大学は、強化学習を用いてテキストから動画へのモデルにおける3D幾何学的一貫性を向上させる新しい手法「World-R1」を発表しました。この手法はモデルのアーキテクチャや3Dデータセットの変更を必要としません。World-R1は、Depth Anything 3モデルを使用して生成された動画から3Dガウス分布を再構築し、新しい角度からシーンをレンダリングして元の映像と比較します。強化学習アルゴリズムのFlow-GRPOを用いて、再構築誤差、軌道の逸脱、意味的妥当性に基づき動画モデルを調整します。 この手法はオープンソースのWan 2.1モデルを採用しており、World-R1-SmallとWorld-R1-Largeのバージョンで3D一貫性の指標が大幅に改善されました。具体的には、LargeモデルはPSNRを7.91dB向上させ、Smallモデルは10.23dBの増加を示しています。ブラインドテストでは、World-R1は幾何学的一貫性において92%の勝率を達成しました。このプロジェクトはCC BY-NC-SA 4.0ライセンスのもとGitHubでオープンソース化されています。