샤오미 AI 연구소는 646개 언어를 지원할 수 있는 오픈 소스 음성 복제 모델인 OmniVoice를 공개했습니다. 이 제로샷 텍스트-음성 변환(TTS) 모델은 단 몇 초의 참조 오디오만으로 음성을 복제할 수 있으며, 원래 음성의 특성을 유지하면서 여러 언어로 음성을 생성할 수 있습니다. 이 모델의 코드, 가중치 및 학습 데이터는 Apache-2.0 라이선스 하에 제공됩니다.
OmniVoice는 단일 양방향 트랜스포머를 사용하여 텍스트를 직접 음향 토큰으로 매핑하는 미니멀리스트 아키텍처를 특징으로 하며, 전통적인 다단계 과정을 우회합니다. 이 모델은 전체 코드북 무작위 마스킹과 사전 학습된 매개변수 초기화와 같은 혁신을 적용하여 효율성과 발음 정확도를 향상시킵니다. 580,000시간의 오픈 소스 데이터를 기반으로 학습된 이 모델은 음성 유사성과 명료성에서 뛰어난 성능을 보이며, 자원이 부족한 언어에서도 우수합니다. 추가 기능으로는 텍스트 기반 음성 맞춤화와 자동 소음 감소가 포함됩니다.
샤오미, 646개 언어 음성 복제 모델 OmniVoice 오픈소스 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
