Fudan ve Meituan LongCat Video Modeli Değerlendirme WBench'i Tanıttı

Fudan Üniversitesi ve Meituan'ın LongCat ekibi, video üretim modellerini değerlendirmek için açık kaynaklı bir kıyaslama aracı olan WBench'i yayınladı. WBench, fiziksel kurallar, uzaysal-zamansal tutarlılık ve etkileşimli kontrol temelinde modelleri değerlendirir; 289 test vakası ve 1.058 etkileşim turu içerir. Hem birinci hem de üçüncü şahıs bakış açılarını destekler ve navigasyon kontrolü, ajan hareketleri, olay düzenleme ve bakış açısı değiştirme özelliklerini entegre eder. Kıyaslama aracı, insan kör test kazanma oranları ile en az 0,94 Spearman sıra korelasyonu elde eden 22 otomatik metrik kullanır. Bulgular, etkileşimli kontrolün büyük ölçüde render kalitesinden bağımsız olduğunu ve kamera hareket kontrolünün ajan tutarlılığını sağlamada başarısız olduğunu göstermektedir. HY-World 1.5 ve Matrix-Game 3.0 gibi açık kaynak modeller navigasyonda başarılı olsa da, ajan kimliği ve bakış açısı kayması konusunda zorluklarla karşılaşmaktadır. Kıyaslama, deformasyon ve hız sorunları nedeniyle hayvanlar gibi esnek olmayan ajanların yönetiminin karmaşıklığını vurgulamaktadır.