Un nouveau référentiel, CUSP, développé par l'Université de Stanford, l'Université d'Oxford et l'Institut Allen pour l'intelligence artificielle, révèle des limites significatives dans la capacité des modèles d'IA à prédire les progrès scientifiques. L'évaluation a testé des modèles d'IA de pointe tels que GPT-5.4, Claude Sonnet 4.5 et DeepSeek R1, constatant que bien que ces modèles excellent dans le raisonnement mécaniste, leur précision dans la prédiction de nouvelles découvertes scientifiques est comparable à un simple tirage au sort.
Le référentiel CUSP, qui comprend 4 760 jalons scientifiques et 17 429 tâches d'évaluation, introduit des contraintes de coupure temporelle des connaissances pour évaluer les véritables capacités prédictives. Les résultats montrent que des modèles comme GPT-5.4 et Claude S4.5 surestiment systématiquement les délais des percées, avec des retards allant de 14 à 26 mois. Malgré une grande précision dans l'identification de directions de recherche plausibles, les modèles peinent à évaluer la faisabilité, n'atteignant qu'une précision de 45 % à 52 %. Cela met en lumière un écart significatif dans la capacité de l'IA à fournir des orientations fiables dans l'exploration scientifique.
Le benchmark CUSP révèle les limites des modèles d'IA dans la prévision scientifique
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
