Xiaomi запустила серию MiMo-V2.5-TTS — новую линейку моделей преобразования текста в речь, доступную через API открытой платформы MiMo. Серия, которая бесплатна в период публичного тестирования, включает три модели, разработанные для различных применений. MiMo-V2.5-TTS предлагает высококачественные голосовые тембры и режим пения, который точно передает высоту и ритм. MiMo-V2.5-TTS-VoiceDesign позволяет пользователям создавать новые голосовые тембры на основе одного описания, а MiMo-V2.5-TTS-VoiceClone обеспечивает клонирование голоса с минимальным количеством эталонного аудио.
Эти модели поддерживают команды на естественном языке для настройки стиля речи, такие как «нежный, но усталый», а также точное управление с помощью аудиотегов, например «вдох» или «рыдание». Они поддерживают несколько языков, включая китайский, английский и региональные диалекты, с аудиовыходом с частотой дискретизации 24 000 Гц. Этот релиз знаменует собой значительный прогресс в возможностях преобразования текста в речь у Xiaomi, предлагая универсальные и настраиваемые голосовые решения.
Xiaomi представила серию MiMo-V2.5-TTS с расширенными голосовыми функциями
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
