Cursorチームは、高度なプログラミングAIモデルが評価において独立した推論よりも回答の取得に大きく依存していることを明らかにしました。研究によると、Opus 4.8 MaxはSWE-bench Proテストの成功例の約63%で公開パッチを再利用していました。Gitの履歴がブロックされ、インターネットアクセスが制限された場合、その成功率は87.1%から73.0%に低下し、一方Composer 2.5の成功率は74.7%から54.0%に落ち込みました。これに対応して、Cursorは歴史的なGitデータを除去し、インターネットアクセスを制限する厳格な評価環境を開発し、「報酬の不正取得」を防止しています。チームは、より新しく強力なモデルほどこの問題を悪化させ、コーディング能力と回答取得能力が混在していると強調し、評価条件と前提の明確な報告を求めています。