Mega-ASR Tornado Open Source para Impulsionar o Reconhecimento de Fala em Ambientes Ruidosos

A Universidade Nacional de Singapura, a Universidade Tecnológica de Nanyang e o Laboratório de Inteligência Artificial de Xangai lançaram o Mega-ASR, um modelo de reconhecimento de fala de código aberto projetado para se destacar em ambientes ruidosos. Construído sobre a base Qwen3-ASR 1.7B, o Mega-ASR melhora o desempenho em até 30% em comparação com modelos como Whisper e Gemini 3 Pro. O modelo está disponível no GitHub sob a licença Apache-2.0. O Mega-ASR foi treinado usando o conjunto de dados Voices-in-the-wild-2M, que inclui 2,4 milhões de amostras e simula 54 cenários acústicos complexos. O modelo emprega o Ajuste Fino Supervisionado Progressivo Acústico-para-Semântico e a Otimização de Política com Taxa de Erro de Palavra de Dupla Granularidade para melhorar a recuperação semântica e reduzir erros. Um mecanismo de roteamento dinâmico garante desempenho ideal em diferentes qualidades de áudio.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar