Un nuevo punto de referencia, CUSP, desarrollado por la Universidad de Stanford, la Universidad de Oxford y el Instituto Allen de Inteligencia Artificial, revela limitaciones significativas en la capacidad de los modelos de IA para predecir el progreso científico. La evaluación probó modelos líderes de IA como GPT-5.4, Claude Sonnet 4.5 y DeepSeek R1, encontrando que, aunque estos modelos sobresalen en el razonamiento mecanicista, su precisión para predecir nuevos descubrimientos científicos es similar a una suposición aleatoria.
El punto de referencia CUSP, que incluye 4,760 hitos científicos y 17,429 tareas de evaluación, introduce restricciones temporales de corte de conocimiento para evaluar las verdaderas capacidades predictivas. Los resultados muestran que modelos como GPT-5.4 y Claude S4.5 sobrestiman consistentemente los plazos de los avances, con retrasos que van de 14 a 26 meses. A pesar de lograr una alta precisión en la identificación de direcciones de investigación plausibles, los modelos tienen dificultades con las evaluaciones de viabilidad, alcanzando solo entre un 45% y un 52% de precisión. Esto destaca una brecha significativa en la capacidad de la IA para proporcionar orientación confiable en la exploración científica.
El Benchmark CUSP Revela las Limitaciones de los Modelos de IA en la Predicción Científica
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
