Das Xiaomi AI Lab hat OmniVoice vorgestellt, ein Open-Source-Sprachklonmodell, das 646 Sprachen unterstützt. Dieses Zero-Shot-Text-zu-Sprache-(TTS)-Modell kann Stimmen mit nur wenigen Sekunden Referenzaudio klonen und Sprache in mehreren Sprachen erzeugen, wobei die Charakteristika der Originalstimme erhalten bleiben. Der Code, die Gewichte und die Trainingsdaten des Modells sind unter der Apache-2.0-Lizenz verfügbar.
OmniVoice verfügt über eine minimalistische Architektur mit einem einzigen bidirektionalen Transformer, der Text direkt in akustische Token umwandelt und traditionelle mehrstufige Prozesse umgeht. Es verwendet Innovationen wie vollständiges Codebuch-Zufallsmasking und vortrainierte Parameterinitialisierung, um Effizienz und Aussprachegenauigkeit zu verbessern. Das Modell, das mit 580.000 Stunden Open-Source-Daten trainiert wurde, überzeugt durch hohe Stimmähnlichkeit und Verständlichkeit, selbst bei ressourcenarmen Sprachen. Weitere Funktionen umfassen textbasierte Stimm-Anpassung und automatische Rauschunterdrückung.
Xiaomi veröffentlicht OmniVoice als Open Source, ein Sprachklonmodell für 646 Sprachen
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
