Xiaomi lance la série MiMo-V2.5-TTS avec clonage vocal

Xiaomi a lancé la série MiMo-V2.5-TTS, une nouvelle gamme de modèles de synthèse vocale, disponible via l'API de la plateforme ouverte MiMo. Cette série, gratuite pendant sa phase de test public, comprend trois modèles conçus pour diverses applications. MiMo-V2.5-TTS offre des tonalités vocales de haute qualité ainsi qu'un mode chant qui capture avec précision la hauteur et le rythme. MiMo-V2.5-TTS-VoiceDesign permet aux utilisateurs de créer de nouvelles tonalités vocales à partir d'une seule description, tandis que MiMo-V2.5-TTS-VoiceClone permet le clonage vocal avec un minimum d'audio de référence. Ces modèles prennent en charge des commandes en langage naturel pour ajuster le style de la voix, comme "doux mais fatigué", ainsi qu'un contrôle précis via des balises audio telles que "inhaler" ou "sangloter". Ils supportent plusieurs langues, dont le chinois, l'anglais et des dialectes régionaux, avec une sortie audio échantillonnée à 24 000 Hz. Cette sortie marque une avancée significative dans les capacités de synthèse vocale de Xiaomi, offrant des solutions vocales polyvalentes et personnalisables.