샤오미는 MiMo 오픈 플랫폼 API를 통해 제공되는 새로운 텍스트 음성 변환 모델 라인인 MiMo-V2.5-TTS 시리즈를 출시했습니다. 공개 테스트 단계에서는 무료로 제공되는 이 시리즈는 다양한 용도를 위해 설계된 세 가지 모델을 포함하고 있습니다. MiMo-V2.5-TTS는 고품질 음성 톤과 음정과 리듬을 정확하게 포착하는 노래 모드를 제공합니다. MiMo-V2.5-TTS-VoiceDesign은 단일 설명만으로 새로운 음성 톤을 생성할 수 있게 하며, MiMo-V2.5-TTS-VoiceClone은 최소한의 참조 오디오로 음성 클로닝을 가능하게 합니다.
이 모델들은 "부드럽지만 피곤한"과 같은 자연어 명령을 통한 음성 스타일 조정과 "숨 들이마시기" 또는 "흐느낌"과 같은 오디오 태그를 통한 정밀 제어를 지원합니다. 중국어, 영어 및 지역 방언을 포함한 여러 언어를 지원하며, 오디오 출력은 24,000Hz 샘플링으로 제공됩니다. 이번 출시로 샤오미의 텍스트 음성 변환 기술이 크게 발전했으며, 다재다능하고 맞춤형 음성 솔루션을 제공합니다.
샤오미, 첨단 음성 기능 탑재한 MiMo-V2.5-TTS 시리즈 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
