Xiaomi Mở Mã Nguồn Mô Hình Nhân Bản Giọng Nói OmniVoice

Phòng thí nghiệm AI của Xiaomi đã ra mắt OmniVoice, một mô hình nhân bản giọng nói mã nguồn mở có khả năng hỗ trợ 646 ngôn ngữ. Mô hình chuyển đổi văn bản thành giọng nói (TTS) zero-shot này có thể nhân bản giọng nói chỉ với vài giây âm thanh tham khảo và tạo ra giọng nói bằng nhiều ngôn ngữ khác nhau, đồng thời giữ nguyên đặc điểm của giọng nói gốc. Mã nguồn, trọng số và dữ liệu huấn luyện của mô hình được cung cấp theo giấy phép Apache-2.0. OmniVoice có kiến trúc tối giản với một Transformer hai chiều duy nhất, chuyển đổi trực tiếp văn bản thành các token âm thanh, bỏ qua các quy trình đa giai đoạn truyền thống. Mô hình sử dụng các đổi mới như che ngẫu nhiên toàn bộ bảng mã và khởi tạo tham số đã được huấn luyện trước để nâng cao hiệu quả và độ chính xác phát âm. Mô hình, được huấn luyện trên 580.000 giờ dữ liệu mã nguồn mở, nổi bật về độ tương đồng giọng nói và khả năng hiểu, ngay cả với các ngôn ngữ có nguồn lực thấp. Các tính năng bổ sung bao gồm tùy chỉnh giọng nói dựa trên văn bản và giảm tiếng ồn tự động.

Bạn cũng có thể thích