Çinli Yapay Zeka Modelleri SWE-bench İlk 10'da 4 Yer Aldı

Çin yapay zeka modelleri, SWE-bench sıralamalarında önemli ilerlemeler kaydederek ilk on pozisyondan dördünü elde etti. Yazılım mühendisliği görevleri için gerçek zamanlı bir kıyaslama olan SWE-bench, yakın zamanda lider tablosunu güncelledi ve Claude Opus 4.6 %65,3 ile lider konumda yer aldı. Zhipu AI'nın açık kaynak modeli GLM-5, %62,8 ile üçüncü sırada yer alarak açık kaynaklı bir model için en yüksek konumu elde etti. İlk on içinde yer alan diğer Çinli modeller arasında DeepSeek-V3.2, Alibaba'nın Qwen3.5-397B-A17B modeli ve Jiepoin星辰 tarafından geliştirilen Step-3.5-Flash bulunuyor. Bu, daha önce ilk on dışında kalan Çin yapay zeka modelleri için kayda değer bir gelişmeyi işaret ediyor. Zhipu Z.ai Küresel Başkanı Li Zixuan, ilerlemeyi vurgulayarak, Çin modellerinin geçmişte "benchmaxing" eleştirilerine maruz kaldığını belirtti. Son güncelleme, önceki örnek gösterimleri ve 80 adımlı işlem sınırını kaldırdı, kıyaslamanın titizliğini artırmak için yardımcı değerlendirme görevleri ekledi.