Лаборатория искусственного интеллекта Xiaomi представила OmniVoice — модель клонирования голоса с открытым исходным кодом, поддерживающую 646 языков. Эта модель преобразования текста в речь (TTS) с нулевым обучением способна клонировать голоса, используя всего несколько секунд эталонного аудио, и генерировать речь на нескольких языках, сохраняя характеристики оригинального голоса. Код модели, веса и обучающие данные доступны под лицензией Apache-2.0.
OmniVoice обладает минималистичной архитектурой с одним двунаправленным трансформером, который напрямую преобразует текст в акустические токены, обходя традиционные многоступенчатые процессы. В модели применяются инновации, такие как случайное маскирование полного кодового словаря и инициализация параметров с предварительным обучением, что повышает эффективность и точность произношения. Модель, обученная на 580 000 часов открытых данных, демонстрирует высокое сходство голосов и разборчивость речи, даже для языков с ограниченными ресурсами. Дополнительные функции включают настройку голоса на основе текста и автоматическое шумоподавление.
Xiaomi открывает исходный код OmniVoice — модели клонирования голоса на 646 языках
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
