Mega-ASR se vuelve de código abierto para mejorar el reconocimiento de voz en entornos ruidosos

La Universidad Nacional de Singapur, la Universidad Tecnológica de Nanyang y el Laboratorio de Inteligencia Artificial de Shanghái han lanzado Mega-ASR, un modelo de reconocimiento de voz de código abierto diseñado para sobresalir en entornos ruidosos. Construido sobre la base Qwen3-ASR 1.7B, Mega-ASR mejora el rendimiento hasta en un 30 % en comparación con modelos como Whisper y Gemini 3 Pro. El modelo está disponible en GitHub bajo la licencia Apache-2.0. Mega-ASR fue entrenado utilizando el conjunto de datos Voices-in-the-wild-2M, que incluye 2.4 millones de muestras y simula 54 escenarios acústicos complejos. El modelo emplea un ajuste fino supervisado progresivo de acústico a semántico y una optimización de políticas regulada por la tasa de error de palabras de doble granularidad para mejorar la recuperación semántica y reducir errores. Un mecanismo de enrutamiento dinámico garantiza un rendimiento óptimo en diversas calidades de audio.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.

También te podría gustar