El modelo STEP3-VL-10B recién presentado por StepFun AI está redefiniendo las capacidades de los modelos con menos de 10 mil millones de parámetros. A pesar de su tamaño relativamente pequeño, el modelo ofrece un rendimiento comparable al de contrapartes mucho más grandes como GLM-4.6V-106B y Qwen3-VL-235B. Logró puntuaciones impresionantes en benchmarks, incluyendo un 94.43% en AIME2025 para razonamiento matemático y un 80.11% en MMMU para comprensión multimodal experta. STEP3-VL-10B incorpora una técnica novedosa conocida como Razonamiento Coordinado Paralelo (PaCoRe) para mejorar el cálculo en tiempo de prueba. El desarrollo del modelo involucró un riguroso proceso de post-entrenamiento con más de 1,000 iteraciones de Aprendizaje por Refuerzo. Fue entrenado con 1.2 billones de tokens multimodales, enfatizando áreas críticas como la educación K-12, OCR, GUI y razonamiento matemático.