Microsoft Research ve Zhejiang Üniversitesi, takviyeli öğrenme kullanarak metinden videoya modellerde 3B geometrik tutarlılığı artıran yeni bir yöntem olan World-R1'i başlattı. Bu yaklaşım, model mimarisinde veya 3B veri setlerinde değişiklik gerektirmez. World-R1, Depth Anything 3 modeli kullanarak oluşturulan videolardan 3B Gauss dağılımlarını yeniden yapılandırır, sahneleri yeni açılardan render eder ve bunları orijinal ile karşılaştırır. Takviyeli öğrenme algoritması Flow-GRPO, yeniden yapılandırma hatası, yörünge sapması ve anlamsal tutarlılık temelinde video modelini ayarlamak için kullanılır.
Yöntem, açık kaynaklı Wan 2.1 modelini kullanır ve World-R1-Small ile World-R1-Large versiyonları 3B tutarlılık metriklerinde önemli iyileşmeler gösterir. Özellikle, Large modeli PSNR değerini 7.91 dB artırırken, Small versiyonu 10.23 dB artış sağlar. Kör testlerde, World-R1 geometrik tutarlılıkta %92 kazanma oranı elde etti. Proje, GitHub'da CC BY-NC-SA 4.0 lisansı altında açık kaynak olarak sunulmaktadır.
Microsoft ve Zhejiang Üniversitesi, Geliştirilmiş 3D Video Tutarlılığı için World-R1'i Tanıttı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
