中国のAIモデルはSWE-benchランキングで大きな進歩を遂げ、現在トップ10のうち4つのポジションを占めています。SWE-benchはソフトウェアエンジニアリングタスクのリアルタイムベンチマークであり、最近リーダーボードを更新し、Claude Opus 4.6が65.3%で首位に立っています。Zhipu AIのオープンソースモデルGLM-5は62.8%で3位にランクインし、オープンソースモデルとしては最高位を記録しました。トップ10に入った他の中国モデルには、DeepSeek-V3.2、AlibabaのQwen3.5-397B-A17B、Jiepoin星辰のStep-3.5-Flashが含まれます。
これは、以前はトップ10に入っていなかった中国のAIモデルにとって顕著な改善を示しています。Zhipu Z.aiのグローバルヘッドである李紫軒氏は、この進展を強調し、中国モデルが「ベンチマックス」と批判されていた過去を指摘しました。最新のアップデートでは、以前の例示デモンストレーションと80ステップの操作制限が削除され、ベンチマークの厳密さを高めるために補助的な評価タスクが追加されました。
中国のAIモデルがSWE-benchトップ10に4つのスポットを獲得
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
