Les modèles d'IA chinois ont réalisé des progrès significatifs dans le classement SWE-bench, occupant désormais quatre des dix premières positions. Le SWE-bench, un benchmark en temps réel pour les tâches d'ingénierie logicielle, a récemment mis à jour son classement, avec Claude Opus 4.6 en tête à 65,3 %. Le modèle open source GLM-5 de Zhipu AI se classe troisième avec 62,8 %, ce qui représente la meilleure position pour un modèle open source. Parmi les autres modèles chinois dans le top dix figurent DeepSeek-V3.2, Qwen3.5-397B-A17B d'Alibaba, et Step-3.5-Flash de Jiepoin星辰. Cela marque une amélioration notable pour les modèles d'IA chinois, qui étaient auparavant en dehors du top dix. Li Zixuan, responsable mondial de Zhipu Z.ai, a souligné les progrès réalisés, notant les critiques passées adressées aux modèles chinois pour le "benchmaxing". La dernière mise à jour a supprimé les démonstrations d'exemples précédentes et la limite d'opérations de 80 étapes, ajoutant des tâches d'évaluation auxiliaires pour renforcer la rigueur du benchmark.