Xiaomi, video ses efektleri üretimini geliştirmek amacıyla tasarlanmış açık kaynaklı bir çerçeve olan ControlFoley'i yayınladı. Görsellerden ses çıkaran geleneksel AI dublaj modellerinin aksine, ControlFoley, video içeriğine dayalı sesler üreterek ve metin açıklamaları veya referans sesleri kabul ederek yaratıcıların ses tarzı üzerinde hassas kontrol sağlamasına olanak tanır. Bu, bir kapı vurma sesini "metal darbesi"ne dönüştürmek gibi dönüşümlere izin verirken video görselleriyle senkronizasyonu korur.
ControlFoley, uzamsal-zamansal bir görsel-işitsel kodlayıcı ve "zaman-timbral ayrıştırma" stratejisi kullanarak standart video dublaj kıyaslamalarında en son performansı elde eder. Anlamsal hizalama ve senkronizasyon gibi metriklerde Kling-Foley gibi ticari sistemlerle yakın rekabet eder, ancak bazı KL sapma metriklerinde biraz daha düşük performans gösterir. Çerçevenin teknik raporu, kodu ve demosu artık kamuya açıktır.
Xiaomi, Gelişmiş Video Ses Üretimi İçin ControlFoley'i Açık Kaynak Yaptı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
