Tongyi Lab đã ra mắt mô hình nhận dạng giọng nói mới nhất của mình, Fun-ASR 1.5, vào ngày 20 tháng 4. Mô hình này, hiện có sẵn qua Alibaba Cloud's Bailian và cộng đồng ModelScope, hỗ trợ 30 ngôn ngữ, bảy nhóm phương ngữ Trung Quốc chính và hơn 20 giọng địa phương chỉ với một mô hình duy nhất. Điều này loại bỏ nhu cầu sử dụng các mô hình riêng biệt cho từng phương ngữ. Các thử nghiệm nội bộ cho thấy tỷ lệ lỗi ký tự giảm 56,2% trong các kịch bản phương ngữ so với phiên bản trước, với năm phương ngữ đạt độ chính xác trên 90%.
Mô hình cũng có khả năng nhận dạng nâng cao đối với thơ cổ điển, với độ chính xác cấp ký tự đạt 97%. Hệ thống thống nhất này giải quyết thách thức dài hạn trong nhận dạng giọng nói phương ngữ Trung Quốc, làm cho nó khả thi về mặt thương mại cho các ứng dụng như phát trực tiếp giáo dục, đường dây nóng chính quyền địa phương và phiên âm phỏng vấn, đơn giản hóa việc triển khai bằng cách loại bỏ nhu cầu sử dụng nhiều đường ống nhận dạng.
Phòng thí nghiệm Tongyi ra mắt Fun-ASR 1.5 với nhận dạng phương ngữ tiên tiến
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
