샤오미 AI 연구소는 646개 언어를 지원할 수 있는 오픈 소스 음성 복제 모델인 OmniVoice를 공개했습니다. 이 제로샷 텍스트-음성 변환(TTS) 모델은 단 몇 초의 참조 오디오만으로 음성을 복제할 수 있으며, 원래 음성의 특성을 유지하면서 여러 언어로 음성을 생성할 수 있습니다. 이 모델의 코드, 가중치 및 학습 데이터는 Apache-2.0 라이선스 하에 제공됩니다. OmniVoice는 단일 양방향 트랜스포머를 사용하여 텍스트를 직접 음향 토큰으로 매핑하는 미니멀리스트 아키텍처를 특징으로 하며, 전통적인 다단계 과정을 우회합니다. 이 모델은 전체 코드북 무작위 마스킹과 사전 학습된 매개변수 초기화와 같은 혁신을 적용하여 효율성과 발음 정확도를 향상시킵니다. 580,000시간의 오픈 소스 데이터를 기반으로 학습된 이 모델은 음성 유사성과 명료성에서 뛰어난 성능을 보이며, 자원이 부족한 언어에서도 우수합니다. 추가 기능으로는 텍스트 기반 음성 맞춤화와 자동 소음 감소가 포함됩니다.