샤오미는 MiMo 오픈 플랫폼 API를 통해 제공되는 새로운 텍스트 음성 변환 모델 라인인 MiMo-V2.5-TTS 시리즈를 출시했습니다. 공개 테스트 단계에서는 무료로 제공되는 이 시리즈는 다양한 용도를 위해 설계된 세 가지 모델을 포함하고 있습니다. MiMo-V2.5-TTS는 고품질 음성 톤과 음정과 리듬을 정확하게 포착하는 노래 모드를 제공합니다. MiMo-V2.5-TTS-VoiceDesign은 단일 설명만으로 새로운 음성 톤을 생성할 수 있게 하며, MiMo-V2.5-TTS-VoiceClone은 최소한의 참조 오디오로 음성 클로닝을 가능하게 합니다. 이 모델들은 "부드럽지만 피곤한"과 같은 자연어 명령을 통한 음성 스타일 조정과 "숨 들이마시기" 또는 "흐느낌"과 같은 오디오 태그를 통한 정밀 제어를 지원합니다. 중국어, 영어 및 지역 방언을 포함한 여러 언어를 지원하며, 오디오 출력은 24,000Hz 샘플링으로 제공됩니다. 이번 출시로 샤오미의 텍스트 음성 변환 기술이 크게 발전했으며, 다재다능하고 맞춤형 음성 솔루션을 제공합니다.