Đại học Quốc gia Singapore, Đại học Công nghệ Nanyang và Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải đã phát hành Mega-ASR, một mô hình nhận dạng giọng nói mã nguồn mở được thiết kế để hoạt động xuất sắc trong môi trường nhiều tiếng ồn. Được xây dựng trên nền tảng Qwen3-ASR 1.7B, Mega-ASR cải thiện hiệu suất lên đến 30% so với các mô hình như Whisper và Gemini 3 Pro. Mô hình này có sẵn trên GitHub dưới giấy phép Apache-2.0.
Mega-ASR được đào tạo sử dụng bộ dữ liệu Voices-in-the-wild-2M, bao gồm 2,4 triệu mẫu và mô phỏng 54 kịch bản âm thanh phức tạp. Mô hình sử dụng phương pháp Tinh chỉnh Giám sát Tiến triển Từ Âm thanh sang Ngữ nghĩa và Tối ưu Chính sách Qua Cổng Tỷ lệ Lỗi Từ với Độ Phân Giải Kép để nâng cao khả năng phục hồi ngữ nghĩa và giảm lỗi. Cơ chế định tuyến động đảm bảo hiệu suất tối ưu trên các chất lượng âm thanh khác nhau.
Mega-ASR Mở Mã Nguồn để Nâng Cao Nhận Diện Giọng Nói trong Môi Trường Ồn Ào
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
