Microsoft Research et l'Université de Zhejiang ont lancé World-R1, une méthode innovante qui améliore la cohérence géométrique 3D dans les modèles de texte en vidéo grâce à l'apprentissage par renforcement. Cette approche ne nécessite pas de modifications de l'architecture du modèle ni des ensembles de données 3D. World-R1 reconstruit des Gaussiennes 3D à partir des vidéos générées en utilisant le modèle Depth Anything 3, en rendant les scènes sous de nouveaux angles et en les comparant à l'original. L'algorithme d'apprentissage par renforcement Flow-GRPO est utilisé pour ajuster le modèle vidéo en fonction de l'erreur de reconstruction, de la déviation de trajectoire et de la plausibilité sémantique.
La méthode utilise le modèle open-source Wan 2.1, avec les versions World-R1-Small et World-R1-Large montrant des améliorations significatives des métriques de cohérence 3D. Plus précisément, le modèle Large améliore le PSNR de 7,91 dB, tandis que la version Small voit une augmentation de 10,23 dB. Lors de tests à l'aveugle, World-R1 a obtenu un taux de réussite de 92 % pour la cohérence géométrique. Le projet est open source sur GitHub sous la licence CC BY-NC-SA 4.0.
Microsoft et l'Université de Zhejiang dévoilent World-R1 pour une meilleure cohérence des vidéos 3D
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
