Xiaomi hat ControlFoley veröffentlicht, ein Open-Source-Framework, das darauf ausgelegt ist, die Erzeugung von Video-Soundeffekten zu verbessern. Im Gegensatz zu herkömmlichen KI-Synchronisationsmodellen, die Geräusche aus visuellen Eindrücken ableiten, bietet ControlFoley den Kreativen eine präzise Kontrolle über den Audiostil, indem es Sounds basierend auf dem Videoinhalt generiert und Textbeschreibungen oder Referenz-Audio akzeptiert. Dadurch sind Transformationen möglich, wie zum Beispiel das Umwandeln eines Klopfens in einen "Metallschlag", während die Synchronisation mit den Videoaufnahmen erhalten bleibt. ControlFoley nutzt einen spatiotemporalen audiovisuellen Encoder und eine "Zeit-Klangfarben-Entkopplungs"-Strategie und erzielt damit eine Spitzenleistung bei standardisierten Video-Synchronisations-Benchmarks. Es konkurriert eng mit kommerziellen Systemen wie Kling-Foley in Metriken wie semantischer Ausrichtung und Synchronisation, obwohl es in bestimmten KL-Divergenz-Metriken leicht unterlegen ist. Der technische Bericht, der Code und die Demo des Frameworks sind jetzt öffentlich zugänglich.