上海を拠点とするAIラボStepFunは、テキスト変換を伴わないリアルタイム音声処理に特化した最先端の音声AIモデル「StepAudio 2.5 Realtime」を発表しました。このモデルは中国語と英語の両方に対応しており、特に長時間のロールプレイシナリオに適した会話型音声エージェント向けに設計されています。StepAudio 2.5は、高度なパラ言語的認識能力を備えており、話速や感情のトーンなどの非言語的な手がかりを検出し、ロールプレイ特有の強化学習を通じてペルソナの安定性を維持します。
StepFunの内部ベンチマークでは、StepAudioが既存モデルをパラ言語理解と会話品質の面で上回っていることが示されています。元Microsoftのベテランである江大新(Jiang Daxin)によって設立された同社は、StepAudioをOpenAIの音声モードの競合製品として位置づけ、優れた性能を主張しています。このモデルは現在稼働中で、最初のペルソナ「小月(Xiao Yue)」が一般公開されており、開発者はAPIを通じてカスタムペルソナを作成することが可能です。この革新は、暗号通貨やWeb3アプリケーションに大きな影響を与え、ソーシャルdApps、メタバースでの交流、音声対応の取引アシスタントの向上に寄与する可能性があります。
StepFun、感情検出機能を備えたリアルタイム音声AI「StepAudio 2.5」を発表
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
