Microsoft y Zhejiang Univ. presentan World-R1 para video 3D

Microsoft Research y la Universidad de Zhejiang han lanzado World-R1, un método novedoso que mejora la consistencia geométrica 3D en modelos de texto a video utilizando aprendizaje por refuerzo. Este enfoque no requiere cambios en la arquitectura del modelo ni en los conjuntos de datos 3D. World-R1 reconstruye gaussianas 3D a partir de videos generados usando el modelo Depth Anything 3, renderizando escenas desde nuevos ángulos y comparándolas con el original. Se utiliza el algoritmo de aprendizaje por refuerzo Flow-GRPO para ajustar el modelo de video basado en el error de reconstrucción, la desviación de la trayectoria y la plausibilidad semántica. El método emplea el modelo de código abierto Wan 2.1, con las versiones World-R1-Small y World-R1-Large mostrando mejoras significativas en métricas de consistencia 3D. Específicamente, el modelo Large mejora el PSNR en 7.91 dB, mientras que la versión Small ve un aumento de 10.23 dB. En pruebas a ciegas, World-R1 logró una tasa de éxito del 92% en consistencia geométrica. El proyecto está disponible como código abierto en GitHub bajo la licencia CC BY-NC-SA 4.0.

También te podría gustar