Xiaomi, video ses efektleri üretimini geliştirmek amacıyla tasarlanmış açık kaynaklı bir çerçeve olan ControlFoley'i yayınladı. Görsellerden ses çıkaran geleneksel AI dublaj modellerinin aksine, ControlFoley, video içeriğine dayalı sesler üreterek ve metin açıklamaları veya referans sesleri kabul ederek yaratıcıların ses tarzı üzerinde hassas kontrol sağlamasına olanak tanır. Bu, bir kapı vurma sesini "metal darbesi"ne dönüştürmek gibi dönüşümlere izin verirken video görselleriyle senkronizasyonu korur. ControlFoley, uzamsal-zamansal bir görsel-işitsel kodlayıcı ve "zaman-timbral ayrıştırma" stratejisi kullanarak standart video dublaj kıyaslamalarında en son performansı elde eder. Anlamsal hizalama ve senkronizasyon gibi metriklerde Kling-Foley gibi ticari sistemlerle yakın rekabet eder, ancak bazı KL sapma metriklerinde biraz daha düşük performans gösterir. Çerçevenin teknik raporu, kodu ve demosu artık kamuya açıktır.