Шанхайская лаборатория искусственного интеллекта StepFun представила StepAudio 2.5 Realtime — передовую голосовую модель ИИ, разработанную для обработки аудио в реальном времени без преобразования в текст. Модель, способная работать как с китайским, так и с английским языками, ориентирована на голосовых агентов для ведения диалогов, особенно в расширенных ролевых сценариях. StepAudio 2.5 обладает продвинутым паралингвистическим восприятием, распознавая невербальные сигналы, такие как скорость речи и эмоциональный тон, а также поддерживает стабильность персонажа благодаря обучению с подкреплением, специфичному для ролевых игр.
Внутренние тесты StepFun показывают, что StepAudio превосходит существующие модели по пониманию паралингвистики и качеству ведения диалога. Компания, основанная бывшим ветераном Microsoft Цзян Дасином, позиционирует StepAudio как конкурента голосовому режиму OpenAI, заявляя о превосходстве в производительности. Модель уже доступна в работе, с первоначальным персонажем «Сяо Юэ», доступным для публичного взаимодействия, а разработчики могут создавать собственные персонажи через API. Эта инновация может значительно повлиять на крипто- и Web3-приложения, улучшая социальные dApps, взаимодействия в метавселенной и голосовых торговых помощников.
StepFun представляет StepAudio 2.5 — голосовой ИИ в реальном времени с распознаванием эмоций
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
