StepFun lanza StepAudio 2.5 con detección de emociones

El laboratorio de inteligencia artificial con sede en Shanghái, StepFun, ha lanzado StepAudio 2.5 Realtime, un modelo de IA de voz de vanguardia diseñado para el procesamiento de audio en tiempo real sin conversión a texto. El modelo, capaz de manejar tanto chino como inglés, está diseñado para agentes de voz conversacionales, especialmente en escenarios de juego de roles extendidos. StepAudio 2.5 cuenta con una avanzada conciencia paralingüística, detectando señales no verbales como la velocidad del habla y el tono emocional, y mantiene la estabilidad de la persona a través de un aprendizaje reforzado específico para juegos de roles. Los benchmarks internos de StepFun muestran que StepAudio supera a los modelos existentes en comprensión paralingüística y calidad conversacional. La empresa, fundada por el veterano de Microsoft Jiang Daxin, posiciona a StepAudio como un competidor del modo de voz de OpenAI, afirmando un rendimiento superior. El modelo ya está en vivo, con la persona inicial "Xiao Yue" disponible para interacción pública, y los desarrolladores pueden crear personas personalizadas a través de la API. Esta innovación podría tener un impacto significativo en las aplicaciones de criptomonedas y Web3, mejorando las dApps sociales, las interacciones en el metaverso y los asistentes de trading habilitados por voz.

También te podría gustar