StepFun lança StepAudio 2.5 com detecção de emoção

O laboratório de IA com sede em Xangai, StepFun, lançou o StepAudio 2.5 Realtime, um modelo avançado de IA de voz projetado para processamento de áudio em tempo real sem conversão para texto. O modelo, capaz de lidar tanto com chinês quanto com inglês, é adaptado para agentes de voz conversacionais, especialmente em cenários de interpretação prolongada. O StepAudio 2.5 possui uma consciência paralinguística avançada, detectando sinais não verbais como velocidade da fala e tom emocional, além de manter a estabilidade da persona por meio de aprendizado por reforço específico para interpretação de papéis. Os benchmarks internos da StepFun mostram que o StepAudio supera os modelos existentes em compreensão paralinguística e qualidade conversacional. A empresa, fundada pelo ex-veterano da Microsoft Jiang Daxin, posiciona o StepAudio como um concorrente do modo de voz da OpenAI, alegando desempenho superior. O modelo já está disponível, com a persona inicial "Xiao Yue" acessível para interação pública, e os desenvolvedores podem criar personas personalizadas via API. Essa inovação pode impactar significativamente aplicações de criptomoedas e Web3, aprimorando dApps sociais, interações no metaverso e assistentes de negociação ativados por voz.

Você também pode gostar