Mega-ASR ra mắt cải thiện nhận dạng giọng nói trong môi trường ồn

Đại học Quốc gia Singapore, Đại học Công nghệ Nanyang và Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải đã phát hành Mega-ASR, một mô hình nhận dạng giọng nói mã nguồn mở được thiết kế để hoạt động xuất sắc trong môi trường nhiều tiếng ồn. Được xây dựng trên nền tảng Qwen3-ASR 1.7B, Mega-ASR cải thiện hiệu suất lên đến 30% so với các mô hình như Whisper và Gemini 3 Pro. Mô hình này có sẵn trên GitHub dưới giấy phép Apache-2.0. Mega-ASR được đào tạo sử dụng bộ dữ liệu Voices-in-the-wild-2M, bao gồm 2,4 triệu mẫu và mô phỏng 54 kịch bản âm thanh phức tạp. Mô hình sử dụng phương pháp Tinh chỉnh Giám sát Tiến triển Từ Âm thanh sang Ngữ nghĩa và Tối ưu Chính sách Qua Cổng Tỷ lệ Lỗi Từ với Độ Phân Giải Kép để nâng cao khả năng phục hồi ngữ nghĩa và giảm lỗi. Cơ chế định tuyến động đảm bảo hiệu suất tối ưu trên các chất lượng âm thanh khác nhau.

Bạn cũng có thể thích