Xiaomi veröffentlicht OmniVoice Voice Cloning Modell als Open Source

Das Xiaomi AI Lab hat OmniVoice vorgestellt, ein Open-Source-Sprachklonmodell, das 646 Sprachen unterstützt. Dieses Zero-Shot-Text-zu-Sprache-(TTS)-Modell kann Stimmen mit nur wenigen Sekunden Referenzaudio klonen und Sprache in mehreren Sprachen erzeugen, wobei die Charakteristika der Originalstimme erhalten bleiben. Der Code, die Gewichte und die Trainingsdaten des Modells sind unter der Apache-2.0-Lizenz verfügbar. OmniVoice verfügt über eine minimalistische Architektur mit einem einzigen bidirektionalen Transformer, der Text direkt in akustische Token umwandelt und traditionelle mehrstufige Prozesse umgeht. Es verwendet Innovationen wie vollständiges Codebuch-Zufallsmasking und vortrainierte Parameterinitialisierung, um Effizienz und Aussprachegenauigkeit zu verbessern. Das Modell, das mit 580.000 Stunden Open-Source-Daten trainiert wurde, überzeugt durch hohe Stimmähnlichkeit und Verständlichkeit, selbst bei ressourcenarmen Sprachen. Weitere Funktionen umfassen textbasierte Stimm-Anpassung und automatische Rauschunterdrückung.

Das könnte Ihnen auch gefallen