StepAudio 2.5 ASR с MTP и окном 32K

Компания Jiepao Xingchen представила свою передовую модель автоматического распознавания речи StepAudio 2.5 ASR с технологией многотокового предсказания (Multi-Token Prediction, MTP). Эта инновация ускоряет скорость обработки и использует контекстное окно размером 32K, что позволяет без прерываний транскрибировать аудиозаписи длительностью 30 минут. Архитектура модели ASR+MTP-5 увеличивает пропускную способность обработки на 400%, снижает задержку на 60% и сокращает затраты на 80%, достигая пикового показателя в 500 токенов в секунду. Тесты показали улучшенную точность и более низкий уровень ошибок распознавания по сравнению с конкурентами.

Вам также может понравиться