Les modèles d'IA chinois ont réalisé des progrès significatifs dans le classement SWE-bench, occupant désormais quatre des dix premières positions. Le SWE-bench, un benchmark en temps réel pour les tâches d'ingénierie logicielle, a récemment mis à jour son classement, avec Claude Opus 4.6 en tête à 65,3 %. Le modèle open source GLM-5 de Zhipu AI se classe troisième avec 62,8 %, ce qui représente la meilleure position pour un modèle open source. Parmi les autres modèles chinois dans le top dix figurent DeepSeek-V3.2, Qwen3.5-397B-A17B d'Alibaba, et Step-3.5-Flash de Jiepoin星辰.
Cela marque une amélioration notable pour les modèles d'IA chinois, qui étaient auparavant en dehors du top dix. Li Zixuan, responsable mondial de Zhipu Z.ai, a souligné les progrès réalisés, notant les critiques passées adressées aux modèles chinois pour le "benchmaxing". La dernière mise à jour a supprimé les démonstrations d'exemples précédentes et la limite d'opérations de 80 étapes, ajoutant des tâches d'évaluation auxiliaires pour renforcer la rigueur du benchmark.
Les modèles d'IA chinois occupent quatre places dans le Top 10 de SWE-bench
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
