Benchmark CUSP : limites des prévisions des modèles IA

Un nouveau référentiel, CUSP, développé par l'Université de Stanford, l'Université d'Oxford et l'Institut Allen pour l'intelligence artificielle, révèle des limites significatives dans la capacité des modèles d'IA à prédire les progrès scientifiques. L'évaluation a testé des modèles d'IA de pointe tels que GPT-5.4, Claude Sonnet 4.5 et DeepSeek R1, constatant que bien que ces modèles excellent dans le raisonnement mécaniste, leur précision dans la prédiction de nouvelles découvertes scientifiques est comparable à un simple tirage au sort. Le référentiel CUSP, qui comprend 4 760 jalons scientifiques et 17 429 tâches d'évaluation, introduit des contraintes de coupure temporelle des connaissances pour évaluer les véritables capacités prédictives. Les résultats montrent que des modèles comme GPT-5.4 et Claude S4.5 surestiment systématiquement les délais des percées, avec des retards allant de 14 à 26 mois. Malgré une grande précision dans l'identification de directions de recherche plausibles, les modèles peinent à évaluer la faisabilité, n'atteignant qu'une précision de 45 % à 52 %. Cela met en lumière un écart significatif dans la capacité de l'IA à fournir des orientations fiables dans l'exploration scientifique.

Vous pourriez aussi aimer