Microsoft et Zhejiang Univ. dévoilent World-R1 pour vidéo 3D

Microsoft Research et l'Université de Zhejiang ont lancé World-R1, une méthode innovante qui améliore la cohérence géométrique 3D dans les modèles de texte en vidéo grâce à l'apprentissage par renforcement. Cette approche ne nécessite pas de modifications de l'architecture du modèle ni des ensembles de données 3D. World-R1 reconstruit des Gaussiennes 3D à partir des vidéos générées en utilisant le modèle Depth Anything 3, en rendant les scènes sous de nouveaux angles et en les comparant à l'original. L'algorithme d'apprentissage par renforcement Flow-GRPO est utilisé pour ajuster le modèle vidéo en fonction de l'erreur de reconstruction, de la déviation de trajectoire et de la plausibilité sémantique. La méthode utilise le modèle open-source Wan 2.1, avec les versions World-R1-Small et World-R1-Large montrant des améliorations significatives des métriques de cohérence 3D. Plus précisément, le modèle Large améliore le PSNR de 7,91 dB, tandis que la version Small voit une augmentation de 10,23 dB. Lors de tests à l'aveugle, World-R1 a obtenu un taux de réussite de 92 % pour la cohérence géométrique. Le projet est open source sur GitHub sous la licence CC BY-NC-SA 4.0.

Vous pourriez aussi aimer