Новая модель STEP3-VL-10B от StepFun AI переопределяет возможности моделей с количеством параметров менее 10 миллиардов. Несмотря на относительно небольшой размер, модель демонстрирует производительность на уровне гораздо более крупных аналогов, таких как GLM-4.6V-106B и Qwen3-VL-235B. Она достигла впечатляющих результатов на тестах, включая 94,43% на AIME2025 по математическому рассуждению и 80,11% на MMMU по экспертному мультимодальному пониманию. STEP3-VL-10B использует новую технику, известную как Параллельное Координированное Рассуждение (PaCoRe), для улучшения вычислений во время тестирования. Разработка модели включала строгий посттренировочный процесс с более чем 1000 итерациями обучения с подкреплением. Модель обучалась на 1,2 триллионах мультимодальных токенов, с акцентом на важные области, такие как образование K-12, OCR, графический интерфейс пользователя и математическое рассуждение.