Un nouveau référentiel, CUSP, développé par l'Université de Stanford, l'Université d'Oxford et l'Institut Allen pour l'intelligence artificielle, révèle des limites significatives dans la capacité des modèles d'IA à prédire les progrès scientifiques. L'évaluation a testé des modèles d'IA de pointe tels que GPT-5.4, Claude Sonnet 4.5 et DeepSeek R1, constatant que bien que ces modèles excellent dans le raisonnement mécaniste, leur précision dans la prédiction de nouvelles découvertes scientifiques est comparable à un simple tirage au sort. Le référentiel CUSP, qui comprend 4 760 jalons scientifiques et 17 429 tâches d'évaluation, introduit des contraintes de coupure temporelle des connaissances pour évaluer les véritables capacités prédictives. Les résultats montrent que des modèles comme GPT-5.4 et Claude S4.5 surestiment systématiquement les délais des percées, avec des retards allant de 14 à 26 mois. Malgré une grande précision dans l'identification de directions de recherche plausibles, les modèles peinent à évaluer la faisabilité, n'atteignant qu'une précision de 45 % à 52 %. Cela met en lumière un écart significatif dans la capacité de l'IA à fournir des orientations fiables dans l'exploration scientifique.