Xiaomi запускает серию MiMo-V2.5-TTS с клонированием голоса

Xiaomi запустила серию MiMo-V2.5-TTS — новую линейку моделей преобразования текста в речь, доступную через API открытой платформы MiMo. Серия, которая бесплатна в период публичного тестирования, включает три модели, разработанные для различных применений. MiMo-V2.5-TTS предлагает высококачественные голосовые тембры и режим пения, который точно передает высоту и ритм. MiMo-V2.5-TTS-VoiceDesign позволяет пользователям создавать новые голосовые тембры на основе одного описания, а MiMo-V2.5-TTS-VoiceClone обеспечивает клонирование голоса с минимальным количеством эталонного аудио. Эти модели поддерживают команды на естественном языке для настройки стиля речи, такие как «нежный, но усталый», а также точное управление с помощью аудиотегов, например «вдох» или «рыдание». Они поддерживают несколько языков, включая китайский, английский и региональные диалекты, с аудиовыходом с частотой дискретизации 24 000 Гц. Этот релиз знаменует собой значительный прогресс в возможностях преобразования текста в речь у Xiaomi, предлагая универсальные и настраиваемые голосовые решения.