Le laboratoire d'IA de Xiaomi a dévoilé OmniVoice, un modèle de clonage vocal open-source capable de prendre en charge 646 langues. Ce modèle de synthèse vocale (TTS) zero-shot peut cloner des voix en utilisant seulement quelques secondes d'audio de référence et générer la parole en plusieurs langues, tout en conservant les caractéristiques de la voix originale. Le code, les poids et les données d'entraînement du modèle sont disponibles sous licence Apache-2.0. OmniVoice présente une architecture minimaliste avec un seul Transformer bidirectionnel qui mappe le texte directement en tokens acoustiques, contournant les processus traditionnels en plusieurs étapes. Il utilise des innovations telles que le masquage aléatoire du code complet et l'initialisation des paramètres pré-entraînés pour améliorer l'efficacité et la précision de la prononciation. Le modèle, entraîné sur 580 000 heures de données open-source, excelle en similarité vocale et en intelligibilité, même pour les langues à faibles ressources. Parmi les fonctionnalités supplémentaires figurent la personnalisation vocale basée sur le texte et la réduction automatique du bruit.