Le modèle STEP3-VL-10B récemment dévoilé par StepFun AI redéfinit les capacités des modèles de moins de 10 milliards de paramètres. Malgré sa taille relativement modeste, ce modèle offre des performances comparables à celles de ses homologues beaucoup plus volumineux tels que GLM-4.6V-106B et Qwen3-VL-235B. Il a obtenu des scores impressionnants lors des benchmarks, notamment 94,43 % à l'AIME2025 pour le raisonnement mathématique et 80,11 % au MMMU pour la compréhension multimodale experte.
Le STEP3-VL-10B intègre une technique novatrice appelée Raisonnement Coordonné Parallèle (PaCoRe) pour améliorer le calcul en temps de test. Le développement du modèle a impliqué un processus rigoureux de post-entraînement avec plus de 1 000 itérations d'apprentissage par renforcement. Il a été entraîné sur 1,2 trillion de tokens multimodaux, en mettant l'accent sur des domaines clés tels que l'éducation de la maternelle à la terminale, la reconnaissance optique de caractères (OCR), les interfaces graphiques utilisateur (GUI) et le raisonnement mathématique.
Le modèle STEP3-VL-10B remet en question les limites d'efficacité des modèles de moins de 10 milliards
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
