Xiaomi MiMo-V2.5-TTS Ses Klonlama Serisini Başlattı

Xiaomi, MiMo açık platform API'si üzerinden erişilebilen yeni bir metinden sese dönüştürme modeli serisi olan MiMo-V2.5-TTS serisini piyasaya sürdü. Halka açık test aşamasında ücretsiz olan bu seri, çeşitli uygulamalar için tasarlanmış üç modeli içeriyor. MiMo-V2.5-TTS, yüksek kaliteli ses tonları ve perde ile ritmi doğru şekilde yakalayan bir şarkı modu sunuyor. MiMo-V2.5-TTS-VoiceDesign, kullanıcıların tek bir açıklamadan yeni ses tonları oluşturmasına olanak tanırken, MiMo-V2.5-TTS-VoiceClone ise minimum referans sesi ile ses klonlamayı mümkün kılıyor. Bu modeller, "nazik ama yorgun" gibi konuşma tarzı ayarları için doğal dil komutlarını destekliyor ve "nefes alma" veya "hıçkırık" gibi ses etiketleriyle hassas kontrol sağlıyor. Çince, İngilizce ve bölgesel lehçeler dahil olmak üzere birden fazla dili destekliyorlar ve ses çıkışı 24.000 Hz örnekleme hızında gerçekleşiyor. Bu sürüm, Xiaomi'nin metinden sese dönüştürme yeteneklerinde önemli bir ilerlemeyi temsil ediyor ve çok yönlü, özelleştirilebilir ses çözümleri sunuyor.