Chinesische KI-Modelle belegen 4 Plätze in SWE-bench Top 10

Chinesische KI-Modelle haben in den SWE-bench-Rankings bedeutende Fortschritte gemacht und halten nun vier der Top-Ten-Positionen. Der SWE-bench, ein Echtzeit-Benchmark für Software-Engineering-Aufgaben, hat kürzlich seine Bestenliste aktualisiert, wobei Claude Opus 4.6 mit 65,3 % an der Spitze steht. Das Open-Source-Modell GLM-5 von Zhipu AI belegt mit 62,8 % den dritten Platz und markiert damit die höchste Position für ein Open-Source-Modell. Weitere chinesische Modelle unter den Top Ten sind DeepSeek-V3.2, Qwen3.5-397B-A17B von Alibaba und Step-3.5-Flash von Jiepoin星辰. Dies stellt eine bemerkenswerte Verbesserung für chinesische KI-Modelle dar, die zuvor außerhalb der Top Ten lagen. Li Zixuan, Global Head von Zhipu Z.ai, hob die Fortschritte hervor und verwies auf frühere Kritik an chinesischen Modellen wegen "Benchmaxing". Das neueste Update entfernte frühere Beispieldemonstrationen und die 80-Schritte-Betriebsbegrenzung und fügte Hilfsbewertungsaufgaben hinzu, um die Strenge des Benchmarks zu erhöhen.