上海を拠点とするAIラボStepFunは、テキスト変換を伴わないリアルタイム音声処理に特化した最先端の音声AIモデル「StepAudio 2.5 Realtime」を発表しました。このモデルは中国語と英語の両方に対応しており、特に長時間のロールプレイシナリオに適した会話型音声エージェント向けに設計されています。StepAudio 2.5は、高度なパラ言語的認識能力を備えており、話速や感情のトーンなどの非言語的な手がかりを検出し、ロールプレイ特有の強化学習を通じてペルソナの安定性を維持します。 StepFunの内部ベンチマークでは、StepAudioが既存モデルをパラ言語理解と会話品質の面で上回っていることが示されています。元Microsoftのベテランである江大新(Jiang Daxin)によって設立された同社は、StepAudioをOpenAIの音声モードの競合製品として位置づけ、優れた性能を主張しています。このモデルは現在稼働中で、最初のペルソナ「小月(Xiao Yue)」が一般公開されており、開発者はAPIを通じてカスタムペルソナを作成することが可能です。この革新は、暗号通貨やWeb3アプリケーションに大きな影響を与え、ソーシャルdApps、メタバースでの交流、音声対応の取引アシスタントの向上に寄与する可能性があります。