O recém-lançado modelo STEP3-VL-10B da StepFun AI está redefinindo as capacidades dos modelos com menos de 10 bilhões de parâmetros. Apesar de seu tamanho relativamente pequeno, o modelo oferece desempenho comparável ao de contrapartes muito maiores, como GLM-4.6V-106B e Qwen3-VL-235B. Ele alcançou pontuações impressionantes em benchmarks, incluindo 94,43% no AIME2025 para raciocínio matemático e 80,11% no MMMU para compreensão multimodal especializada. O STEP3-VL-10B incorpora uma técnica inovadora conhecida como Raciocínio Coordenado Paralelo (PaCoRe) para aprimorar o cálculo em tempo de teste. O desenvolvimento do modelo envolveu um rigoroso processo pós-treinamento com mais de 1.000 iterações de Aprendizado por Reforço. Foi treinado com 1,2 trilhão de tokens multimodais, enfatizando áreas críticas como educação do ensino fundamental e médio (K-12), OCR, GUI e raciocínio matemático.