StepFun выпустил StepAudio 2.5 с распознаванием эмоций

Шанхайская лаборатория искусственного интеллекта StepFun представила StepAudio 2.5 Realtime — передовую голосовую модель ИИ, разработанную для обработки аудио в реальном времени без преобразования в текст. Модель, способная работать как с китайским, так и с английским языками, ориентирована на голосовых агентов для ведения диалогов, особенно в расширенных ролевых сценариях. StepAudio 2.5 обладает продвинутым паралингвистическим восприятием, распознавая невербальные сигналы, такие как скорость речи и эмоциональный тон, а также поддерживает стабильность персонажа благодаря обучению с подкреплением, специфичному для ролевых игр. Внутренние тесты StepFun показывают, что StepAudio превосходит существующие модели по пониманию паралингвистики и качеству ведения диалога. Компания, основанная бывшим ветераном Microsoft Цзян Дасином, позиционирует StepAudio как конкурента голосовому режиму OpenAI, заявляя о превосходстве в производительности. Модель уже доступна в работе, с первоначальным персонажем «Сяо Юэ», доступным для публичного взаимодействия, а разработчики могут создавать собственные персонажи через API. Эта инновация может значительно повлиять на крипто- и Web3-приложения, улучшая социальные dApps, взаимодействия в метавселенной и голосовых торговых помощников.

Вам также может понравиться