Chinesische KI-Modelle haben in den SWE-bench-Rankings bedeutende Fortschritte gemacht und halten nun vier der Top-Ten-Positionen. Der SWE-bench, ein Echtzeit-Benchmark für Software-Engineering-Aufgaben, hat kürzlich seine Bestenliste aktualisiert, wobei Claude Opus 4.6 mit 65,3 % an der Spitze steht. Das Open-Source-Modell GLM-5 von Zhipu AI belegt mit 62,8 % den dritten Platz und markiert damit die höchste Position für ein Open-Source-Modell. Weitere chinesische Modelle unter den Top Ten sind DeepSeek-V3.2, Qwen3.5-397B-A17B von Alibaba und Step-3.5-Flash von Jiepoin星辰.
Dies stellt eine bemerkenswerte Verbesserung für chinesische KI-Modelle dar, die zuvor außerhalb der Top Ten lagen. Li Zixuan, Global Head von Zhipu Z.ai, hob die Fortschritte hervor und verwies auf frühere Kritik an chinesischen Modellen wegen "Benchmaxing". Das neueste Update entfernte frühere Beispieldemonstrationen und die 80-Schritte-Betriebsbegrenzung und fügte Hilfsbewertungsaufgaben hinzu, um die Strenge des Benchmarks zu erhöhen.
Chinesische KI-Modelle sichern sich vier Plätze unter den Top 10 des SWE-bench
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
