Лаборатория искусственного интеллекта Xiaomi представила OmniVoice — модель клонирования голоса с открытым исходным кодом, поддерживающую 646 языков. Эта модель преобразования текста в речь (TTS) с нулевым обучением способна клонировать голоса, используя всего несколько секунд эталонного аудио, и генерировать речь на нескольких языках, сохраняя характеристики оригинального голоса. Код модели, веса и обучающие данные доступны под лицензией Apache-2.0. OmniVoice обладает минималистичной архитектурой с одним двунаправленным трансформером, который напрямую преобразует текст в акустические токены, обходя традиционные многоступенчатые процессы. В модели применяются инновации, такие как случайное маскирование полного кодового словаря и инициализация параметров с предварительным обучением, что повышает эффективность и точность произношения. Модель, обученная на 580 000 часов открытых данных, демонстрирует высокое сходство голосов и разборчивость речи, даже для языков с ограниченными ресурсами. Дополнительные функции включают настройку голоса на основе текста и автоматическое шумоподавление.