L'Université Nationale de Singapour, l'Université Technologique de Nanyang et le Laboratoire d'Intelligence Artificielle de Shanghai ont lancé Mega-ASR, un modèle de reconnaissance vocale open source conçu pour exceller dans des environnements bruyants. Basé sur l'architecture Qwen3-ASR 1.7B, Mega-ASR améliore les performances jusqu'à 30 % par rapport à des modèles tels que Whisper et Gemini 3 Pro. Le modèle est disponible sur GitHub sous licence Apache-2.0.
Mega-ASR a été entraîné en utilisant le jeu de données Voices-in-the-wild-2M, qui comprend 2,4 millions d'échantillons et simule 54 scénarios acoustiques complexes. Le modèle utilise un affinage supervisé progressif acoustique-à-sémantique et une optimisation de politique à double granularité basée sur le taux d'erreur de mots pour améliorer la récupération sémantique et réduire les erreurs. Un mécanisme de routage dynamique garantit des performances optimales selon la qualité audio variable.
Mega-ASR Open Source pour Améliorer la Reconnaissance Vocale en Environnements Bruyants
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
