Microsoft Research y la Universidad de Zhejiang han lanzado World-R1, un método novedoso que mejora la consistencia geométrica 3D en modelos de texto a video utilizando aprendizaje por refuerzo. Este enfoque no requiere cambios en la arquitectura del modelo ni en los conjuntos de datos 3D. World-R1 reconstruye gaussianas 3D a partir de videos generados usando el modelo Depth Anything 3, renderizando escenas desde nuevos ángulos y comparándolas con el original. Se utiliza el algoritmo de aprendizaje por refuerzo Flow-GRPO para ajustar el modelo de video basado en el error de reconstrucción, la desviación de la trayectoria y la plausibilidad semántica.
El método emplea el modelo de código abierto Wan 2.1, con las versiones World-R1-Small y World-R1-Large mostrando mejoras significativas en métricas de consistencia 3D. Específicamente, el modelo Large mejora el PSNR en 7.91 dB, mientras que la versión Small ve un aumento de 10.23 dB. En pruebas a ciegas, World-R1 logró una tasa de éxito del 92% en consistencia geométrica. El proyecto está disponible como código abierto en GitHub bajo la licencia CC BY-NC-SA 4.0.
Microsoft y la Universidad de Zhejiang presentan World-R1 para mejorar la consistencia de video 3D
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
