Một chuẩn đánh giá mới, CUSP, được phát triển bởi Đại học Stanford, Đại học Oxford và Viện Allen về Trí tuệ Nhân tạo, tiết lộ những hạn chế đáng kể trong khả năng dự đoán tiến bộ khoa học của các mô hình AI. Đánh giá đã thử nghiệm các mô hình AI hàng đầu như GPT-5.4, Claude Sonnet 4.5 và DeepSeek R1, phát hiện rằng mặc dù các mô hình này xuất sắc trong lý luận cơ học, độ chính xác của chúng trong việc dự đoán các khám phá khoa học mới tương tự như đoán ngẫu nhiên. Chuẩn đánh giá CUSP, bao gồm 4.760 cột mốc khoa học và 17.429 nhiệm vụ đánh giá, giới thiệu các giới hạn về cắt đứt kiến thức theo thời gian để đánh giá khả năng dự đoán thực sự. Kết quả cho thấy các mô hình như GPT-5.4 và Claude S4.5 liên tục đánh giá quá cao thời gian đạt được đột phá, với độ trễ từ 14 đến 26 tháng. Mặc dù đạt độ chính xác cao trong việc xác định các hướng nghiên cứu khả thi, các mô hình gặp khó khăn trong đánh giá tính khả thi, chỉ đạt độ chính xác từ 45% đến 52%. Điều này làm nổi bật một khoảng cách đáng kể trong khả năng của AI trong việc cung cấp hướng dẫn đáng tin cậy trong khám phá khoa học.