Microsoft und Zhejiang Uni präsentieren World-R1 für 3D-Video

Microsoft Research und die Zhejiang-Universität haben World-R1 vorgestellt, eine neuartige Methode, die die 3D-geometrische Konsistenz in Text-zu-Video-Modellen mithilfe von Reinforcement Learning verbessert. Dieser Ansatz erfordert keine Änderungen an der Modellarchitektur oder an 3D-Datensätzen. World-R1 rekonstruiert 3D-Gauss-Verteilungen aus generierten Videos mithilfe des Depth Anything 3-Modells, rendert Szenen aus neuen Blickwinkeln und vergleicht sie mit dem Original. Der Reinforcement-Learning-Algorithmus Flow-GRPO wird verwendet, um das Videomodell basierend auf Rekonstruktionsfehler, Trajektorienabweichung und semantischer Plausibilität anzupassen. Die Methode nutzt das Open-Source-Modell Wan 2.1, wobei die Versionen World-R1-Small und World-R1-Large signifikante Verbesserungen bei den 3D-Konsistenzmetriken zeigen. Insbesondere verbessert das Large-Modell den PSNR um 7,91 dB, während die Small-Version eine Steigerung um 10,23 dB verzeichnet. In Blindtests erreichte World-R1 eine Gewinnrate von 92 % für geometrische Konsistenz. Das Projekt ist auf GitHub unter der Lizenz CC BY-NC-SA 4.0 als Open Source verfügbar.

Das könnte Ihnen auch gefallen