Xiaomi a lancé ControlFoley, un cadre open-source conçu pour améliorer la génération d'effets sonores vidéo. Contrairement aux modèles traditionnels de doublage IA qui infèrent les sons à partir des images, ControlFoley offre aux créateurs un contrôle précis du style audio en générant des sons basés sur le contenu vidéo et en acceptant des descriptions textuelles ou des références audio. Cela permet des transformations telles que convertir un coup frappé en un "coup métallique" tout en maintenant la synchronisation avec les images vidéo.
ControlFoley utilise un encodeur audiovisuel spatiotemporel et une stratégie de "découplage temps-timbre", atteignant des performances de pointe sur les benchmarks standards de doublage vidéo. Il rivalise étroitement avec des systèmes commerciaux comme Kling-Foley sur des métriques telles que l'alignement sémantique et la synchronisation, bien qu'il soit légèrement moins performant sur certaines métriques de divergence KL. Le rapport technique, le code et la démo du cadre sont désormais accessibles au public.
Xiaomi publie en open source ControlFoley pour améliorer la génération sonore des vidéos
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
