シンガポール国立大学、南洋理工大学、上海人工知能研究所は、騒がしい環境での性能に優れたオープンソースの音声認識モデル「Mega-ASR」を発表しました。Qwen3-ASR 1.7Bのバックボーンを基に構築されたMega-ASRは、WhisperやGemini 3 Proといったモデルと比較して最大30%の性能向上を実現しています。このモデルはApache-2.0ライセンスの下、GitHubで公開されています。 Mega-ASRは、240万のサンプルを含み、54の複雑な音響シナリオをシミュレートしたVoices-in-the-wild-2Mデータセットを用いて訓練されました。モデルは、音響から意味への段階的な教師ありファインチューニングと、二重粒度の単語誤り率ゲート付きポリシー最適化を採用し、意味の回復を強化し誤りを減少させています。さらに、動的ルーティング機構により、さまざまな音質において最適な性能を保証します。