Das neu vorgestellte Modell STEP3-VL-10B von StepFun AI definiert die Fähigkeiten von Modellen mit weniger als 10 Milliarden Parametern neu. Trotz seiner relativ kleinen Größe liefert das Modell eine Leistung, die mit deutlich größeren Modellen wie GLM-4.6V-106B und Qwen3-VL-235B vergleichbar ist. Es erzielte beeindruckende Benchmark-Ergebnisse, darunter 94,43 % bei AIME2025 für mathematisches Denken und 80,11 % bei MMMU für Expertenwissen im multimodalen Verständnis. STEP3-VL-10B integriert eine neuartige Technik namens Parallel Coordinated Reasoning (PaCoRe), um die Berechnung zur Testzeit zu verbessern. Die Entwicklung des Modells umfasste einen rigorosen Nachtrainingsprozess mit über 1.000 Iterationen des Reinforcement Learning. Es wurde mit 1,2 Billionen multimodalen Tokens trainiert, wobei der Schwerpunkt auf wichtigen Bereichen wie K-12-Bildung, OCR, GUI und mathematischem Denken lag.