중국 AI 모델들이 SWE-bench 순위에서 큰 진전을 이루어 현재 상위 10위 중 4자리를 차지하고 있습니다. SWE-bench는 소프트웨어 엔지니어링 작업을 위한 실시간 벤치마크로, 최근 리더보드를 업데이트했으며 Claude Opus 4.6이 65.3%로 선두를 달리고 있습니다. Zhipu AI의 오픈소스 모델 GLM-5는 62.8%로 3위를 차지하며 오픈소스 모델 중 최고 순위를 기록했습니다. 상위 10위 내 다른 중국 모델로는 DeepSeek-V3.2, 알리바바의 Qwen3.5-397B-A17B, 그리고 Jiepoin星辰의 Step-3.5-Flash가 포함되어 있습니다.
이는 이전에 상위 10위 밖에 머물렀던 중국 AI 모델들의 눈에 띄는 향상을 의미합니다. Zhipu Z.ai의 글로벌 책임자인 리즈쉬안은 "벤치맥싱"에 대한 과거 중국 모델들에 대한 비판을 언급하며 이번 진전을 강조했습니다. 최신 업데이트에서는 이전의 예시 시연과 80단계 작업 제한이 제거되었고, 벤치마크의 엄격함을 높이기 위해 보조 평가 작업이 추가되었습니다.
중국 AI 모델, SWE-bench 상위 10위 중 4자리 차지
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
