마이크로소프트 리서치와 저장대학교는 강화 학습을 사용하여 텍스트-투-비디오 모델에서 3D 기하학적 일관성을 향상시키는 새로운 방법인 World-R1을 출시했습니다. 이 접근법은 모델 아키텍처나 3D 데이터셋의 변경을 필요로 하지 않습니다. World-R1은 Depth Anything 3 모델을 사용하여 생성된 비디오에서 3D 가우시안을 재구성하고, 새로운 각도에서 장면을 렌더링한 후 원본과 비교합니다. 강화 학습 알고리즘인 Flow-GRPO는 재구성 오류, 궤적 편차 및 의미적 타당성을 기반으로 비디오 모델을 조정하는 데 사용됩니다.
이 방법은 오픈 소스 Wan 2.1 모델을 사용하며, World-R1-Small과 World-R1-Large 버전은 3D 일관성 지표에서 상당한 향상을 보였습니다. 구체적으로, Large 모델은 PSNR을 7.91 dB 향상시키고, Small 버전은 10.23 dB 증가를 기록했습니다. 블라인드 테스트에서 World-R1은 기하학적 일관성에서 92%의 승률을 달성했습니다. 이 프로젝트는 CC BY-NC-SA 4.0 라이선스 하에 GitHub에 오픈 소스로 공개되어 있습니다.
마이크로소프트와 저장대학교, 향상된 3D 비디오 일관성을 위한 World-R1 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
