Modelos de IA chinos logran 4 puestos en Top 10 SWE-bench

Los modelos de IA chinos han logrado avances significativos en las clasificaciones de SWE-bench, ocupando ahora cuatro de las diez primeras posiciones. El SWE-bench, un punto de referencia en tiempo real para tareas de ingeniería de software, actualizó recientemente su tabla de líderes, con Claude Opus 4.6 liderando con un 65,3%. El modelo de código abierto GLM-5 de Zhipu AI ocupa el tercer lugar con un 62,8%, marcando la posición más alta para un modelo de código abierto. Otros modelos chinos en el top diez incluyen DeepSeek-V3.2, Qwen3.5-397B-A17B de Alibaba y Step-3.5-Flash de Jiepoin星辰. Esto representa una mejora notable para los modelos de IA chinos, que anteriormente no estaban entre los diez primeros. Li Zixuan, jefe global de Zhipu Z.ai, destacó el progreso, señalando críticas pasadas hacia los modelos chinos por "benchmaxing". La última actualización eliminó las demostraciones de ejemplo anteriores y el límite de operación de 80 pasos, añadiendo tareas de evaluación auxiliares para aumentar el rigor del benchmark.