Phòng thí nghiệm AI của Xiaomi đã ra mắt OmniVoice, một mô hình nhân bản giọng nói mã nguồn mở có khả năng hỗ trợ 646 ngôn ngữ. Mô hình chuyển đổi văn bản thành giọng nói (TTS) zero-shot này có thể nhân bản giọng nói chỉ với vài giây âm thanh tham khảo và tạo ra giọng nói bằng nhiều ngôn ngữ khác nhau, đồng thời giữ nguyên đặc điểm của giọng nói gốc. Mã nguồn, trọng số và dữ liệu huấn luyện của mô hình được cung cấp theo giấy phép Apache-2.0.
OmniVoice có kiến trúc tối giản với một Transformer hai chiều duy nhất, chuyển đổi trực tiếp văn bản thành các token âm thanh, bỏ qua các quy trình đa giai đoạn truyền thống. Mô hình sử dụng các đổi mới như che ngẫu nhiên toàn bộ bảng mã và khởi tạo tham số đã được huấn luyện trước để nâng cao hiệu quả và độ chính xác phát âm. Mô hình, được huấn luyện trên 580.000 giờ dữ liệu mã nguồn mở, nổi bật về độ tương đồng giọng nói và khả năng hiểu, ngay cả với các ngôn ngữ có nguồn lực thấp. Các tính năng bổ sung bao gồm tùy chỉnh giọng nói dựa trên văn bản và giảm tiếng ồn tự động.
Xiaomi Mở Mã Nguồn OmniVoice, Mô Hình Nhân Bản Giọng Nói Hỗ Trợ 646 Ngôn Ngữ
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
