A Universidade Nacional de Singapura, a Universidade Tecnológica de Nanyang e o Laboratório de Inteligência Artificial de Xangai lançaram o Mega-ASR, um modelo de reconhecimento de fala de código aberto projetado para se destacar em ambientes ruidosos. Construído sobre a base Qwen3-ASR 1.7B, o Mega-ASR melhora o desempenho em até 30% em comparação com modelos como Whisper e Gemini 3 Pro. O modelo está disponível no GitHub sob a licença Apache-2.0. O Mega-ASR foi treinado usando o conjunto de dados Voices-in-the-wild-2M, que inclui 2,4 milhões de amostras e simula 54 cenários acústicos complexos. O modelo emprega o Ajuste Fino Supervisionado Progressivo Acústico-para-Semântico e a Otimização de Política com Taxa de Erro de Palavra de Dupla Granularidade para melhorar a recuperação semântica e reduzir erros. Um mecanismo de roteamento dinâmico garante desempenho ideal em diferentes qualidades de áudio.