Xiaomi Lança Série MiMo-V2.5-TTS com Clonagem de Voz

A Xiaomi lançou a série MiMo-V2.5-TTS, uma nova linha de modelos de texto para fala, disponível através da API da plataforma aberta MiMo. A série, que é gratuita durante sua fase de teste público, inclui três modelos projetados para várias aplicações. O MiMo-V2.5-TTS oferece tons de voz de alta qualidade e um modo de canto que captura com precisão o tom e o ritmo. O MiMo-V2.5-TTS-VoiceDesign permite aos usuários criar novos tons de voz a partir de uma única descrição, enquanto o MiMo-V2.5-TTS-VoiceClone possibilita a clonagem de voz com áudio de referência mínimo. Esses modelos suportam comandos em linguagem natural para ajustes no estilo da fala, como "suave, mas cansado", e controle preciso por meio de tags de áudio como "inalar" ou "chorar". Eles suportam múltiplos idiomas, incluindo chinês, inglês e dialetos regionais, com saída de áudio amostrada a 24.000 Hz. Este lançamento marca um avanço significativo nas capacidades de texto para fala da Xiaomi, oferecendo soluções de voz versáteis e personalizáveis.