Microsoft e Zhejiang Univ. lançam World-R1 para vídeo 3D

A Microsoft Research e a Universidade de Zhejiang lançaram o World-R1, um método inovador que aprimora a consistência geométrica 3D em modelos de texto para vídeo usando aprendizado por reforço. Essa abordagem não requer alterações na arquitetura do modelo ou em conjuntos de dados 3D. O World-R1 reconstrói Gaussianas 3D a partir de vídeos gerados usando o modelo Depth Anything 3, renderizando cenas de novos ângulos e comparando-as com o original. O algoritmo de aprendizado por reforço Flow-GRPO é usado para ajustar o modelo de vídeo com base no erro de reconstrução, desvio de trajetória e plausibilidade semântica. O método utiliza o modelo open-source Wan 2.1, com as versões World-R1-Small e World-R1-Large mostrando melhorias significativas nas métricas de consistência 3D. Especificamente, o modelo Large melhora o PSNR em 7,91 dB, enquanto a versão Small apresenta um aumento de 10,23 dB. Em testes cegos, o World-R1 alcançou uma taxa de vitória de 92% em consistência geométrica. O projeto é open-source no GitHub sob a licença CC BY-NC-SA 4.0.

Você também pode gostar