Xiaomi、音声クローン対応MiMo-V2.5-TTSシリーズ発売

Xiaomiは、MiMoオープンプラットフォームAPIを通じて利用可能な新しいテキスト読み上げモデルのシリーズ、MiMo-V2.5-TTSシリーズを発表しました。このシリーズは公開テスト期間中は無料で提供されており、さまざまな用途に対応した3つのモデルが含まれています。MiMo-V2.5-TTSは高品質な音声トーンと、ピッチやリズムを正確に捉える歌唱モードを提供します。MiMo-V2.5-TTS-VoiceDesignは単一の説明から新しい音声トーンを作成でき、MiMo-V2.5-TTS-VoiceCloneは最小限の参照音声で音声クローンを可能にします。これらのモデルは、「優しく疲れた」などの自然言語コマンドによる話し方の調整や、「息を吸う」や「すすり泣き」といった音声タグによる精密な制御をサポートしています。中国語、英語、地域方言を含む複数の言語に対応し、音声出力は24,000Hzでサンプリングされています。このリリースは、Xiaomiのテキスト読み上げ技術における大きな進歩を示しており、多用途でカスタマイズ可能な音声ソリューションを提供します。