O Tongyi Lab lançou seu mais recente modelo de reconhecimento de fala, Fun-ASR 1.5, em 20 de abril. O modelo, agora disponível através do Bailian da Alibaba Cloud e da comunidade ModelScope, suporta 30 idiomas, sete grandes grupos de dialetos chineses e mais de 20 sotaques regionais com um único modelo. Isso elimina a necessidade de modelos separados para cada dialeto. Testes internos mostram uma redução de 56,2% na taxa de erro de caracteres para cenários de dialetos em comparação com a versão anterior, com cinco dialetos alcançando mais de 90% de precisão. O modelo também apresenta reconhecimento aprimorado para poesia clássica, ostentando uma precisão de 97% ao nível dos caracteres. Este sistema unificado aborda o desafio de longo alcance do reconhecimento de fala dos dialetos chineses, tornando-o comercialmente viável para aplicações como transmissões educacionais ao vivo, linhas diretas de governos locais e transcrição de entrevistas, simplificando a implantação ao eliminar a necessidade de múltiplos pipelines de reconhecimento.