Xiaomi lanza MiMo-V2.5-TTS con clonación de voz

Xiaomi ha lanzado la serie MiMo-V2.5-TTS, una nueva línea de modelos de texto a voz, disponible a través de la API de la plataforma abierta MiMo. La serie, que es gratuita durante su fase de prueba pública, incluye tres modelos diseñados para diversas aplicaciones. MiMo-V2.5-TTS ofrece tonos de voz de alta calidad y un modo de canto que captura con precisión el tono y el ritmo. MiMo-V2.5-TTS-VoiceDesign permite a los usuarios crear nuevos tonos de voz a partir de una sola descripción, mientras que MiMo-V2.5-TTS-VoiceClone habilita la clonación de voz con un audio de referencia mínimo. Estos modelos soportan comandos en lenguaje natural para ajustes en el estilo de habla, como "suave pero cansado", y control preciso mediante etiquetas de audio como "inhalar" o "sollozar". Soportan múltiples idiomas, incluyendo chino, inglés y dialectos regionales, con salida de audio muestreada a 24,000 Hz. Este lanzamiento representa un avance significativo en las capacidades de texto a voz de Xiaomi, ofreciendo soluciones de voz versátiles y personalizables.