Stanford Üniversitesi, Oxford Üniversitesi ve Allen Yapay Zeka Enstitüsü tarafından geliştirilen yeni bir kıyaslama testi olan CUSP, yapay zeka modellerinin bilimsel ilerlemeyi tahmin etme yeteneklerindeki önemli sınırlamaları ortaya koyuyor. Değerlendirme, GPT-5.4, Claude Sonnet 4.5 ve DeepSeek R1 gibi önde gelen yapay zeka modellerini test etti ve bu modellerin mekanik akıl yürütmede üstün performans göstermelerine rağmen, yeni bilimsel keşifleri tahmin etme doğruluklarının rastgele tahmin yapmaya benzediğini buldu. 4.760 bilimsel dönüm noktası ve 17.429 değerlendirme görevini içeren CUSP kıyaslama testi, gerçek tahmin yeteneklerini değerlendirmek için zamansal bilgi kesme kısıtlamaları getiriyor. Sonuçlar, GPT-5.4 ve Claude S4.5 gibi modellerin atılım zaman çizelgelerini sürekli olarak fazla tahmin ettiğini, gecikmelerin 14 ila 26 ay arasında değiştiğini gösteriyor. Makul araştırma yönlerini tanımlamada yüksek doğruluk elde etmelerine rağmen, modeller uygulanabilirlik değerlendirmelerinde zorlanıyor ve sadece %45 ila %52 doğruluk sağlıyor. Bu durum, yapay zekanın bilimsel keşiflerde güvenilir rehberlik sağlama konusundaki önemli bir boşluğu ortaya koyuyor.