StepFun lance StepAudio 2.5 avec détection d'émotions

Le laboratoire d'IA basé à Shanghai, StepFun, a lancé StepAudio 2.5 Realtime, un modèle d'IA vocale de pointe conçu pour le traitement audio en temps réel sans conversion en texte. Ce modèle, capable de gérer à la fois le chinois et l'anglais, est spécialement conçu pour les agents vocaux conversationnels, notamment dans des scénarios de jeu de rôle prolongés. StepAudio 2.5 se distingue par une conscience paralinguistique avancée, détectant des indices non verbaux tels que le rythme de la parole et le ton émotionnel, tout en maintenant la stabilité de la personnalité grâce à un apprentissage par renforcement spécifique au jeu de rôle. Les benchmarks internes de StepFun montrent que StepAudio surpasse les modèles existants en compréhension paralinguistique et en qualité conversationnelle. L'entreprise, fondée par l'ancien vétéran de Microsoft Jiang Daxin, positionne StepAudio comme un concurrent du mode vocal d'OpenAI, revendiquant une performance supérieure. Le modèle est désormais opérationnel, avec la première personnalité "Xiao Yue" disponible pour une interaction publique, et les développeurs peuvent créer des personnalités personnalisées via l'API. Cette innovation pourrait avoir un impact significatif sur les applications crypto et Web3, en améliorant les dApps sociales, les interactions dans le métavers et les assistants de trading vocaux.

Vous pourriez aussi aimer