Xiaomi a lancé ControlFoley, un cadre open-source conçu pour améliorer la génération d'effets sonores vidéo. Contrairement aux modèles traditionnels de doublage IA qui infèrent les sons à partir des images, ControlFoley offre aux créateurs un contrôle précis du style audio en générant des sons basés sur le contenu vidéo et en acceptant des descriptions textuelles ou des références audio. Cela permet des transformations telles que convertir un coup frappé en un "coup métallique" tout en maintenant la synchronisation avec les images vidéo. ControlFoley utilise un encodeur audiovisuel spatiotemporel et une stratégie de "découplage temps-timbre", atteignant des performances de pointe sur les benchmarks standards de doublage vidéo. Il rivalise étroitement avec des systèmes commerciaux comme Kling-Foley sur des métriques telles que l'alignement sémantique et la synchronisation, bien qu'il soit légèrement moins performant sur certaines métriques de divergence KL. Le rapport technique, le code et la démo du cadre sont désormais accessibles au public.