La Universidad Nacional de Singapur, la Universidad Tecnológica de Nanyang y el Laboratorio de Inteligencia Artificial de Shanghái han lanzado Mega-ASR, un modelo de reconocimiento de voz de código abierto diseñado para sobresalir en entornos ruidosos. Construido sobre la base Qwen3-ASR 1.7B, Mega-ASR mejora el rendimiento hasta en un 30 % en comparación con modelos como Whisper y Gemini 3 Pro. El modelo está disponible en GitHub bajo la licencia Apache-2.0. Mega-ASR fue entrenado utilizando el conjunto de datos Voices-in-the-wild-2M, que incluye 2.4 millones de muestras y simula 54 escenarios acústicos complejos. El modelo emplea un ajuste fino supervisado progresivo de acústico a semántico y una optimización de políticas regulada por la tasa de error de palabras de doble granularidad para mejorar la recuperación semántica y reducir errores. Un mecanismo de enrutamiento dinámico garantiza un rendimiento óptimo en diversas calidades de audio.