Xiaomi ha lanzado ControlFoley, un marco de código abierto diseñado para mejorar la generación de efectos de sonido en videos. A diferencia de los modelos tradicionales de doblaje por IA que infieren sonidos a partir de imágenes, ControlFoley ofrece a los creadores un control preciso sobre el estilo de audio al generar sonidos basados en el contenido del video y aceptar descripciones de texto o audio de referencia. Esto permite transformaciones como convertir un golpe en un "golpe metálico" manteniendo la sincronización con las imágenes del video. ControlFoley utiliza un codificador audiovisual espaciotemporal y una estrategia de "desacoplamiento tiempo-timbre", logrando un rendimiento de vanguardia en los estándares de doblaje de video. Compite de cerca con sistemas comerciales como Kling-Foley en métricas como la alineación semántica y la sincronización, aunque tiene un rendimiento ligeramente inferior en ciertas métricas de divergencia KL. El informe técnico, el código y la demostración del marco ahora están disponibles públicamente.