スタンフォード大学、オックスフォード大学、アレン人工知能研究所によって開発された新しいベンチマーク「CUSP」は、AIモデルが科学の進歩を予測する能力に重大な制限があることを明らかにしました。この評価では、GPT-5.4、Claude Sonnet 4.5、DeepSeek R1などの主要なAIモデルがテストされ、これらのモデルは機械的推論に優れている一方で、新しい科学的発見を予測する精度はほぼランダムな推測に近いことが判明しました。 CUSPベンチマークは、4,760の科学的マイルストーンと17,429の評価タスクを含み、真の予測能力を評価するために時間的な知識カットオフ制約を導入しています。結果は、GPT-5.4やClaude S4.5のようなモデルが突破口のタイムラインを一貫して過大評価しており、その遅れは14か月から26か月に及ぶことを示しています。妥当な研究方向を特定する精度は高いものの、実現可能性の評価には苦戦しており、精度はわずか45%から52%にとどまっています。これは、科学的探求において信頼できる指針を提供するAIの能力に大きなギャップがあることを浮き彫りにしています。