シンガポール国立大学、南洋理工大学、上海人工知能研究所は、騒がしい環境での性能に優れたオープンソースの音声認識モデル「Mega-ASR」を発表しました。Qwen3-ASR 1.7Bのバックボーンを基に構築されたMega-ASRは、WhisperやGemini 3 Proといったモデルと比較して最大30%の性能向上を実現しています。このモデルはApache-2.0ライセンスの下、GitHubで公開されています。
Mega-ASRは、240万のサンプルを含み、54の複雑な音響シナリオをシミュレートしたVoices-in-the-wild-2Mデータセットを用いて訓練されました。モデルは、音響から意味への段階的な教師ありファインチューニングと、二重粒度の単語誤り率ゲート付きポリシー最適化を採用し、意味の回復を強化し誤りを減少させています。さらに、動的ルーティング機構により、さまざまな音質において最適な性能を保証します。
騒がしい環境での音声認識を強化するためにMega-ASRがオープンソース化される
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
