Die National University of Singapore, die Nanyang Technological University und das Shanghai Artificial Intelligence Laboratory haben Mega-ASR veröffentlicht, ein Open-Source-Spracherkennungsmodell, das speziell für den Einsatz in lauten Umgebungen entwickelt wurde. Basierend auf dem Qwen3-ASR 1,7B Backbone verbessert Mega-ASR die Leistung um bis zu 30 % im Vergleich zu Modellen wie Whisper und Gemini 3 Pro. Das Modell ist unter der Apache-2.0-Lizenz auf GitHub verfügbar. Mega-ASR wurde mit dem Voices-in-the-wild-2M-Datensatz trainiert, der 2,4 Millionen Proben enthält und 54 komplexe akustische Szenarien simuliert. Das Modell verwendet Acoustic-to-Semantic Progressive Supervised Fine-Tuning und Dual-Granularity Word Error Rate-Gated Policy Optimization, um die semantische Wiederherstellung zu verbessern und Fehler zu reduzieren. Ein dynamischer Routing-Mechanismus sorgt für optimale Leistung bei unterschiedlichen Audioqualitäten.