Tongyi Lab đã ra mắt mô hình nhận dạng giọng nói mới nhất của mình, Fun-ASR 1.5, vào ngày 20 tháng 4. Mô hình này, hiện có sẵn qua Alibaba Cloud's Bailian và cộng đồng ModelScope, hỗ trợ 30 ngôn ngữ, bảy nhóm phương ngữ Trung Quốc chính và hơn 20 giọng địa phương chỉ với một mô hình duy nhất. Điều này loại bỏ nhu cầu sử dụng các mô hình riêng biệt cho từng phương ngữ. Các thử nghiệm nội bộ cho thấy tỷ lệ lỗi ký tự giảm 56,2% trong các kịch bản phương ngữ so với phiên bản trước, với năm phương ngữ đạt độ chính xác trên 90%. Mô hình cũng có khả năng nhận dạng nâng cao đối với thơ cổ điển, với độ chính xác cấp ký tự đạt 97%. Hệ thống thống nhất này giải quyết thách thức dài hạn trong nhận dạng giọng nói phương ngữ Trung Quốc, làm cho nó khả thi về mặt thương mại cho các ứng dụng như phát trực tiếp giáo dục, đường dây nóng chính quyền địa phương và phiên âm phỏng vấn, đơn giản hóa việc triển khai bằng cách loại bỏ nhu cầu sử dụng nhiều đường ống nhận dạng.