STEP3-VL-10B : défis et limites d'efficacité Sub-10B

Le modèle STEP3-VL-10B récemment dévoilé par StepFun AI redéfinit les capacités des modèles de moins de 10 milliards de paramètres. Malgré sa taille relativement modeste, ce modèle offre des performances comparables à celles de ses homologues beaucoup plus volumineux tels que GLM-4.6V-106B et Qwen3-VL-235B. Il a obtenu des scores impressionnants lors des benchmarks, notamment 94,43 % à l'AIME2025 pour le raisonnement mathématique et 80,11 % au MMMU pour la compréhension multimodale experte. Le STEP3-VL-10B intègre une technique novatrice appelée Raisonnement Coordonné Parallèle (PaCoRe) pour améliorer le calcul en temps de test. Le développement du modèle a impliqué un processus rigoureux de post-entraînement avec plus de 1 000 itérations d'apprentissage par renforcement. Il a été entraîné sur 1,2 trillion de tokens multimodaux, en mettant l'accent sur des domaines clés tels que l'éducation de la maternelle à la terminale, la reconnaissance optique de caractères (OCR), les interfaces graphiques utilisateur (GUI) et le raisonnement mathématique.