마이크로소프트 리서치와 저장대학교는 강화 학습을 사용하여 텍스트-투-비디오 모델에서 3D 기하학적 일관성을 향상시키는 새로운 방법인 World-R1을 출시했습니다. 이 접근법은 모델 아키텍처나 3D 데이터셋의 변경을 필요로 하지 않습니다. World-R1은 Depth Anything 3 모델을 사용하여 생성된 비디오에서 3D 가우시안을 재구성하고, 새로운 각도에서 장면을 렌더링한 후 원본과 비교합니다. 강화 학습 알고리즘인 Flow-GRPO는 재구성 오류, 궤적 편차 및 의미적 타당성을 기반으로 비디오 모델을 조정하는 데 사용됩니다. 이 방법은 오픈 소스 Wan 2.1 모델을 사용하며, World-R1-Small과 World-R1-Large 버전은 3D 일관성 지표에서 상당한 향상을 보였습니다. 구체적으로, Large 모델은 PSNR을 7.91 dB 향상시키고, Small 버전은 10.23 dB 증가를 기록했습니다. 블라인드 테스트에서 World-R1은 기하학적 일관성에서 92%의 승률을 달성했습니다. 이 프로젝트는 CC BY-NC-SA 4.0 라이선스 하에 GitHub에 오픈 소스로 공개되어 있습니다.