StepAudio 2.5 ASR、MTP技術搭載で高精度な文字起こしを実現して登場

Jiepao Xingchenは、高度な自動音声認識モデルであるStepAudio 2.5 ASRを発表しました。このモデルはマルチトークン予測（MTP）技術を搭載しており、推論速度を加速させ、32Kのコンテキストウィンドウを活用することで、30分間の音声を切り分けることなくシームレスに文字起こしすることが可能です。ASR+MTP-5アーキテクチャにより、推論スループットは400％向上し、レイテンシは60％削減、コストは80％削減され、最大500トークン／秒の処理速度を達成しています。テストでは、競合他社と比較して精度が向上し、単語誤り率が低減していることが示されています。

出典: 原文を表示

免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。

​​こちらもおすすめ​​

こちらもおすすめ