中国AIモデルがSWE-benchトップ10に4席獲得

中国のAIモデルはSWE-benchランキングで大きな進歩を遂げ、現在トップ10のうち4つのポジションを占めています。SWE-benchはソフトウェアエンジニアリングタスクのリアルタイムベンチマークであり、最近リーダーボードを更新し、Claude Opus 4.6が65.3％で首位に立っています。Zhipu AIのオープンソースモデルGLM-5は62.8％で3位にランクインし、オープンソースモデルとしては最高位を記録しました。トップ10に入った他の中国モデルには、DeepSeek-V3.2、AlibabaのQwen3.5-397B-A17B、Jiepoin星辰のStep-3.5-Flashが含まれます。これは、以前はトップ10に入っていなかった中国のAIモデルにとって顕著な改善を示しています。Zhipu Z.aiのグローバルヘッドである李紫軒氏は、この進展を強調し、中国モデルが「ベンチマックス」と批判されていた過去を指摘しました。最新のアップデートでは、以前の例示デモンストレーションと80ステップの操作制限が削除され、ベンチマークの厳密さを高めるために補助的な評価タスクが追加されました。