Xiaomi ha lanzado ControlFoley, un marco de código abierto diseñado para mejorar la generación de efectos de sonido en videos. A diferencia de los modelos tradicionales de doblaje por IA que infieren sonidos a partir de imágenes, ControlFoley ofrece a los creadores un control preciso sobre el estilo de audio al generar sonidos basados en el contenido del video y aceptar descripciones de texto o audio de referencia. Esto permite transformaciones como convertir un golpe en un "golpe metálico" manteniendo la sincronización con las imágenes del video.
ControlFoley utiliza un codificador audiovisual espaciotemporal y una estrategia de "desacoplamiento tiempo-timbre", logrando un rendimiento de vanguardia en los estándares de doblaje de video. Compite de cerca con sistemas comerciales como Kling-Foley en métricas como la alineación semántica y la sincronización, aunque tiene un rendimiento ligeramente inferior en ciertas métricas de divergencia KL. El informe técnico, el código y la demostración del marco ahora están disponibles públicamente.
Xiaomi libera el código de ControlFoley para mejorar la generación de sonido en videos
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
