Le laboratoire d'IA basé à Shanghai, StepFun, a lancé StepAudio 2.5 Realtime, un modèle d'IA vocale de pointe conçu pour le traitement audio en temps réel sans conversion en texte. Ce modèle, capable de gérer à la fois le chinois et l'anglais, est spécialement conçu pour les agents vocaux conversationnels, notamment dans des scénarios de jeu de rôle prolongés. StepAudio 2.5 se distingue par une conscience paralinguistique avancée, détectant des indices non verbaux tels que le rythme de la parole et le ton émotionnel, tout en maintenant la stabilité de la personnalité grâce à un apprentissage par renforcement spécifique au jeu de rôle.
Les benchmarks internes de StepFun montrent que StepAudio surpasse les modèles existants en compréhension paralinguistique et en qualité conversationnelle. L'entreprise, fondée par l'ancien vétéran de Microsoft Jiang Daxin, positionne StepAudio comme un concurrent du mode vocal d'OpenAI, revendiquant une performance supérieure. Le modèle est désormais opérationnel, avec la première personnalité "Xiao Yue" disponible pour une interaction publique, et les développeurs peuvent créer des personnalités personnalisées via l'API. Cette innovation pourrait avoir un impact significatif sur les applications crypto et Web3, en améliorant les dApps sociales, les interactions dans le métavers et les assistants de trading vocaux.
StepFun dévoile StepAudio 2.5, une IA vocale en temps réel avec détection des émotions
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
