Singapur Ulusal Üniversitesi, Nanyang Teknoloji Üniversitesi ve Şanghay Yapay Zeka Laboratuvarı, gürültülü ortamlarda üstün performans göstermek üzere tasarlanmış açık kaynaklı bir konuşma tanıma modeli olan Mega-ASR'yi yayımladı. Qwen3-ASR 1.7B omurgası üzerine inşa edilen Mega-ASR, Whisper ve Gemini 3 Pro gibi modellere kıyasla performansı %30'a kadar artırıyor. Model, Apache-2.0 lisansı altında GitHub'da erişilebilir durumdadır. Mega-ASR, 2,4 milyon örnek içeren ve 54 karmaşık akustik senaryoyu simüle eden Voices-in-the-wild-2M veri seti kullanılarak eğitildi. Model, anlamsal iyileştirmeyi artırmak ve hataları azaltmak için Akustik'ten Anlamsala Kademeli Denetimli İnce Ayar ve Çift-Granülerlikte Kelime Hata Oranı Kontrollü Politika Optimizasyonu yöntemlerini kullanır. Dinamik bir yönlendirme mekanizması, farklı ses kalitelerinde optimal performansı garanti eder.