Modelos de IA chineses garantem 4 vagas no Top 10 SWE-bench

Modelos de IA chineses fizeram avanços significativos no ranking SWE-bench, agora ocupando quatro das dez primeiras posições. O SWE-bench, um benchmark em tempo real para tarefas de engenharia de software, atualizou recentemente seu quadro de líderes, com o Claude Opus 4.6 liderando com 65,3%. O modelo de código aberto GLM-5 da Zhipu AI ocupa o terceiro lugar com 62,8%, marcando a posição mais alta para um modelo de código aberto. Outros modelos chineses entre os dez primeiros incluem DeepSeek-V3.2, Qwen3.5-397B-A17B da Alibaba e Step-3.5-Flash da Jiepoin星辰. Isso representa uma melhoria notável para os modelos de IA chineses, que anteriormente ficavam fora do top dez. Li Zixuan, chefe global da Zhipu Z.ai, destacou o progresso, observando críticas anteriores aos modelos chineses por "benchmaxing". A atualização mais recente removeu demonstrações de exemplos anteriores e o limite de operação de 80 etapas, adicionando tarefas auxiliares de avaliação para aumentar o rigor do benchmark.