Xiaomi ra mắt MiMo-V2.5-TTS với công nghệ nhân giọng

Xiaomi đã ra mắt dòng sản phẩm MiMo-V2.5-TTS, một dòng mô hình chuyển văn bản thành giọng nói mới, có sẵn thông qua API nền tảng mở MiMo. Dòng sản phẩm này, miễn phí trong giai đoạn thử nghiệm công khai, bao gồm ba mô hình được thiết kế cho nhiều ứng dụng khác nhau. MiMo-V2.5-TTS cung cấp các tông giọng chất lượng cao và chế độ hát có khả năng bắt chính xác cao độ và nhịp điệu. MiMo-V2.5-TTS-VoiceDesign cho phép người dùng tạo ra các tông giọng mới chỉ từ một mô tả duy nhất, trong khi MiMo-V2.5-TTS-VoiceClone cho phép sao chép giọng nói với lượng âm thanh tham khảo tối thiểu. Các mô hình này hỗ trợ các lệnh ngôn ngữ tự nhiên để điều chỉnh phong cách nói, chẳng hạn như "dịu dàng nhưng mệt mỏi," và kiểm soát chính xác thông qua các thẻ âm thanh như "hít vào" hoặc "khóc nức nở." Chúng hỗ trợ nhiều ngôn ngữ, bao gồm tiếng Trung, tiếng Anh và các phương ngữ khu vực, với đầu ra âm thanh được lấy mẫu ở tần số 24.000 Hz. Phiên bản này đánh dấu một bước tiến quan trọng trong khả năng chuyển văn bản thành giọng nói của Xiaomi, cung cấp các giải pháp giọng nói đa dạng và có thể tùy chỉnh.