A Xiaomi lançou o ControlFoley, uma estrutura de código aberto projetada para aprimorar a geração de efeitos sonoros em vídeos. Diferentemente dos modelos tradicionais de dublagem por IA que inferem sons a partir das imagens, o ControlFoley oferece aos criadores controle preciso sobre o estilo do áudio, gerando sons com base no conteúdo do vídeo e aceitando descrições em texto ou áudio de referência. Isso permite transformações como converter uma batida em um "golpe metálico" mantendo a sincronização com as imagens do vídeo. O ControlFoley utiliza um codificador audiovisual espaço-temporal e uma estratégia de "desacoplamento tempo-timbre", alcançando desempenho de ponta em benchmarks padrão de dublagem de vídeo. Ele compete de perto com sistemas comerciais como o Kling-Foley em métricas como alinhamento semântico e sincronização, embora tenha um desempenho ligeiramente inferior em certas métricas de divergência KL. O relatório técnico, o código e a demonstração da estrutura agora estão publicamente acessíveis.