Benchmark CUSP revela límites en predicción de IA

Un nuevo punto de referencia, CUSP, desarrollado por la Universidad de Stanford, la Universidad de Oxford y el Instituto Allen de Inteligencia Artificial, revela limitaciones significativas en la capacidad de los modelos de IA para predecir el progreso científico. La evaluación probó modelos líderes de IA como GPT-5.4, Claude Sonnet 4.5 y DeepSeek R1, encontrando que, aunque estos modelos sobresalen en el razonamiento mecanicista, su precisión para predecir nuevos descubrimientos científicos es similar a una suposición aleatoria. El punto de referencia CUSP, que incluye 4,760 hitos científicos y 17,429 tareas de evaluación, introduce restricciones temporales de corte de conocimiento para evaluar las verdaderas capacidades predictivas. Los resultados muestran que modelos como GPT-5.4 y Claude S4.5 sobrestiman consistentemente los plazos de los avances, con retrasos que van de 14 a 26 meses. A pesar de lograr una alta precisión en la identificación de direcciones de investigación plausibles, los modelos tienen dificultades con las evaluaciones de viabilidad, alcanzando solo entre un 45% y un 52% de precisión. Esto destaca una brecha significativa en la capacidad de la IA para proporcionar orientación confiable en la exploración científica.

También te podría gustar