O Xiaomi AI Lab revelou o OmniVoice, um modelo de clonagem de voz de código aberto capaz de suportar 646 idiomas. Este modelo de texto para fala (TTS) zero-shot pode clonar vozes usando apenas alguns segundos de áudio de referência e gerar fala em múltiplos idiomas, mantendo as características da voz original. O código, os pesos e os dados de treinamento do modelo estão disponíveis sob a licença Apache-2.0. O OmniVoice apresenta uma arquitetura minimalista com um único Transformer bidirecional que mapeia o texto diretamente para tokens acústicos, evitando processos tradicionais em múltiplas etapas. Ele emprega inovações como mascaramento aleatório de código completo e inicialização de parâmetros pré-treinados para melhorar a eficiência e a precisão da pronúncia. O modelo, treinado com 580.000 horas de dados de código aberto, se destaca na similaridade e inteligibilidade da voz, mesmo para idiomas com poucos recursos. Recursos adicionais incluem personalização de voz baseada em texto e redução automática de ruído.