스탠포드 대학교, 옥스퍼드 대학교, 앨런 인공지능 연구소가 공동 개발한 새로운 벤치마크인 CUSP는 AI 모델이 과학적 진보를 예측하는 능력에 상당한 한계가 있음을 드러냈습니다. 평가에서는 GPT-5.4, Claude Sonnet 4.5, DeepSeek R1과 같은 주요 AI 모델들을 테스트했으며, 이들 모델이 기계적 추론에서는 뛰어나지만 새로운 과학적 발견을 예측하는 정확도는 무작위 추측과 비슷하다는 결과를 얻었습니다. CUSP 벤치마크는 4,760개의 과학적 이정표와 17,429개의 평가 과제를 포함하며, 진정한 예측 능력을 평가하기 위해 시간적 지식 컷오프 제약을 도입했습니다. 결과는 GPT-5.4와 Claude S4.5 같은 모델들이 돌파구의 예상 시기를 지속적으로 과대평가하며, 지연 기간이 14개월에서 26개월에 이르는 것으로 나타났습니다. 그럴듯한 연구 방향을 식별하는 데는 높은 정확도를 보였지만, 실행 가능성 평가에서는 45%에서 52%의 정확도에 그쳐 AI가 과학 탐구에서 신뢰할 수 있는 지침을 제공하는 데 큰 격차가 있음을 강조합니다.