スタンフォード大学、オックスフォード大学、アレン人工知能研究所によって開発された新しいベンチマーク「CUSP」は、AIモデルが科学の進歩を予測する能力に重大な制限があることを明らかにしました。この評価では、GPT-5.4、Claude Sonnet 4.5、DeepSeek R1などの主要なAIモデルがテストされ、これらのモデルは機械的推論に優れている一方で、新しい科学的発見を予測する精度はほぼランダムな推測に近いことが判明しました。
CUSPベンチマークは、4,760の科学的マイルストーンと17,429の評価タスクを含み、真の予測能力を評価するために時間的な知識カットオフ制約を導入しています。結果は、GPT-5.4やClaude S4.5のようなモデルが突破口のタイムラインを一貫して過大評価しており、その遅れは14か月から26か月に及ぶことを示しています。妥当な研究方向を特定する精度は高いものの、実現可能性の評価には苦戦しており、精度はわずか45%から52%にとどまっています。これは、科学的探求において信頼できる指針を提供するAIの能力に大きなギャップがあることを浮き彫りにしています。
CUSPベンチマークが科学的予測におけるAIモデルの限界を明らかにする
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
