Modelos de IA chineses fizeram avanços significativos no ranking SWE-bench, agora ocupando quatro das dez primeiras posições. O SWE-bench, um benchmark em tempo real para tarefas de engenharia de software, atualizou recentemente seu quadro de líderes, com o Claude Opus 4.6 liderando com 65,3%. O modelo de código aberto GLM-5 da Zhipu AI ocupa o terceiro lugar com 62,8%, marcando a posição mais alta para um modelo de código aberto. Outros modelos chineses entre os dez primeiros incluem DeepSeek-V3.2, Qwen3.5-397B-A17B da Alibaba e Step-3.5-Flash da Jiepoin星辰.
Isso representa uma melhoria notável para os modelos de IA chineses, que anteriormente ficavam fora do top dez. Li Zixuan, chefe global da Zhipu Z.ai, destacou o progresso, observando críticas anteriores aos modelos chineses por "benchmaxing". A atualização mais recente removeu demonstrações de exemplos anteriores e o limite de operação de 80 etapas, adicionando tarefas auxiliares de avaliação para aumentar o rigor do benchmark.
Modelos de IA chineses garantem quatro vagas no Top 10 do SWE-bench
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
