El laboratorio de inteligencia artificial con sede en Shanghái, StepFun, ha lanzado StepAudio 2.5 Realtime, un modelo de IA de voz de vanguardia diseñado para el procesamiento de audio en tiempo real sin conversión a texto. El modelo, capaz de manejar tanto chino como inglés, está diseñado para agentes de voz conversacionales, especialmente en escenarios de juego de roles extendidos. StepAudio 2.5 cuenta con una avanzada conciencia paralingüística, detectando señales no verbales como la velocidad del habla y el tono emocional, y mantiene la estabilidad de la persona a través de un aprendizaje reforzado específico para juegos de roles.
Los benchmarks internos de StepFun muestran que StepAudio supera a los modelos existentes en comprensión paralingüística y calidad conversacional. La empresa, fundada por el veterano de Microsoft Jiang Daxin, posiciona a StepAudio como un competidor del modo de voz de OpenAI, afirmando un rendimiento superior. El modelo ya está en vivo, con la persona inicial "Xiao Yue" disponible para interacción pública, y los desarrolladores pueden crear personas personalizadas a través de la API. Esta innovación podría tener un impacto significativo en las aplicaciones de criptomonedas y Web3, mejorando las dApps sociales, las interacciones en el metaverso y los asistentes de trading habilitados por voz.
StepFun presenta StepAudio 2.5, IA de voz en tiempo real con detección de emociones
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
