Xiaomi выпустила ControlFoley — открытую платформу, разработанную для улучшения генерации звуковых эффектов в видео. В отличие от традиционных моделей ИИ для озвучивания, которые выводят звуки на основе визуального ряда, ControlFoley предоставляет создателям точный контроль над стилем аудио, генерируя звуки на основе видеоконтента и принимая текстовые описания или эталонные аудиозаписи. Это позволяет, например, преобразовать стук в "удар по металлу", сохраняя при этом синхронизацию с визуальной частью видео. ControlFoley использует пространственно-временной аудиовизуальный энкодер и стратегию "разделения времени и тембра", достигая передовых результатов на стандартных тестах по озвучиванию видео. Он конкурирует с коммерческими системами, такими как Kling-Foley, по таким показателям, как семантическое соответствие и синхронизация, хотя немного уступает в некоторых метриках дивергенции Кульбака-Лейблера. Технический отчет, исходный код и демонстрационная версия платформы теперь доступны публично.