Fudan Üniversitesi ve Meituan'ın LongCat ekibi, video üretim modellerini değerlendirmek için açık kaynaklı bir kıyaslama aracı olan WBench'i yayınladı. WBench, fiziksel kurallar, uzaysal-zamansal tutarlılık ve etkileşimli kontrol temelinde modelleri değerlendirir; 289 test vakası ve 1.058 etkileşim turu içerir. Hem birinci hem de üçüncü şahıs bakış açılarını destekler ve navigasyon kontrolü, ajan hareketleri, olay düzenleme ve bakış açısı değiştirme özelliklerini entegre eder.
Kıyaslama aracı, insan kör test kazanma oranları ile en az 0,94 Spearman sıra korelasyonu elde eden 22 otomatik metrik kullanır. Bulgular, etkileşimli kontrolün büyük ölçüde render kalitesinden bağımsız olduğunu ve kamera hareket kontrolünün ajan tutarlılığını sağlamada başarısız olduğunu göstermektedir. HY-World 1.5 ve Matrix-Game 3.0 gibi açık kaynak modeller navigasyonda başarılı olsa da, ajan kimliği ve bakış açısı kayması konusunda zorluklarla karşılaşmaktadır. Kıyaslama, deformasyon ve hız sorunları nedeniyle hayvanlar gibi esnek olmayan ajanların yönetiminin karmaşıklığını vurgulamaktadır.
Fudan ve Meituan LongCat, Video Üretimi Kıyaslaması için WBench'i Başlattı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
