중국 AI 모델, SWE-bench 톱10에 4개 진입

중국 AI 모델들이 SWE-bench 순위에서 큰 진전을 이루어 현재 상위 10위 중 4자리를 차지하고 있습니다. SWE-bench는 소프트웨어 엔지니어링 작업을 위한 실시간 벤치마크로, 최근 리더보드를 업데이트했으며 Claude Opus 4.6이 65.3%로 선두를 달리고 있습니다. Zhipu AI의 오픈소스 모델 GLM-5는 62.8%로 3위를 차지하며 오픈소스 모델 중 최고 순위를 기록했습니다. 상위 10위 내 다른 중국 모델로는 DeepSeek-V3.2, 알리바바의 Qwen3.5-397B-A17B, 그리고 Jiepoin星辰의 Step-3.5-Flash가 포함되어 있습니다. 이는 이전에 상위 10위 밖에 머물렀던 중국 AI 모델들의 눈에 띄는 향상을 의미합니다. Zhipu Z.ai의 글로벌 책임자인 리즈쉬안은 "벤치맥싱"에 대한 과거 중국 모델들에 대한 비판을 언급하며 이번 진전을 강조했습니다. 최신 업데이트에서는 이전의 예시 시연과 80단계 작업 제한이 제거되었고, 벤치마크의 엄격함을 높이기 위해 보조 평가 작업이 추가되었습니다.