Xiaomi startet MiMo-V2.5-TTS Serie mit Sprachklonen

Xiaomi hat die MiMo-V2.5-TTS-Serie vorgestellt, eine neue Reihe von Text-zu-Sprache-Modellen, die über die MiMo Open Platform API verfügbar sind. Die Serie, die während ihrer öffentlichen Testphase kostenlos ist, umfasst drei Modelle, die für verschiedene Anwendungen entwickelt wurden. MiMo-V2.5-TTS bietet hochwertige Stimmklänge und einen Gesangsmodus, der Tonhöhe und Rhythmus präzise erfasst. MiMo-V2.5-TTS-VoiceDesign ermöglicht es Nutzern, neue Stimmklänge anhand einer einzigen Beschreibung zu erstellen, während MiMo-V2.5-TTS-VoiceClone das Klonen von Stimmen mit minimalem Referenzaudio erlaubt. Diese Modelle unterstützen natürliche Sprachbefehle zur Anpassung des Sprachstils, wie zum Beispiel "sanft, aber müde", sowie eine präzise Steuerung über Audio-Tags wie "Einatmen" oder "Schluchzen". Sie unterstützen mehrere Sprachen, darunter Chinesisch, Englisch und regionale Dialekte, mit einer Audioausgabe, die mit 24.000 Hz abgetastet wird. Diese Veröffentlichung markiert einen bedeutenden Fortschritt in Xiaomis Text-zu-Sprache-Fähigkeiten und bietet vielseitige und anpassbare Sprachlösungen.