O Xiaomi AI Lab revelou o OmniVoice, um modelo de clonagem de voz de código aberto capaz de suportar 646 idiomas. Este modelo de texto para fala (TTS) zero-shot pode clonar vozes usando apenas alguns segundos de áudio de referência e gerar fala em múltiplos idiomas, mantendo as características da voz original. O código, os pesos e os dados de treinamento do modelo estão disponíveis sob a licença Apache-2.0.
O OmniVoice apresenta uma arquitetura minimalista com um único Transformer bidirecional que mapeia o texto diretamente para tokens acústicos, evitando processos tradicionais em múltiplas etapas. Ele emprega inovações como mascaramento aleatório de código completo e inicialização de parâmetros pré-treinados para melhorar a eficiência e a precisão da pronúncia. O modelo, treinado com 580.000 horas de dados de código aberto, se destaca na similaridade e inteligibilidade da voz, mesmo para idiomas com poucos recursos. Recursos adicionais incluem personalização de voz baseada em texto e redução automática de ruído.
Xiaomi Torna Open Source o OmniVoice, um Modelo de Clonagem de Voz em 646 Idiomas
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
