Benchmark CUSP revela limites das previsões de IA

Um novo benchmark, CUSP, desenvolvido pela Universidade de Stanford, pela Universidade de Oxford e pelo Allen Institute for Artificial Intelligence, revela limitações significativas na capacidade dos modelos de IA de prever o progresso científico. A avaliação testou modelos de IA líderes como GPT-5.4, Claude Sonnet 4.5 e DeepSeek R1, constatando que, embora esses modelos se destaquem no raciocínio mecanicista, sua precisão na previsão de novas descobertas científicas é semelhante a um palpite aleatório. O benchmark CUSP, que inclui 4.760 marcos científicos e 17.429 tarefas de avaliação, introduz restrições de corte temporal de conhecimento para avaliar as verdadeiras capacidades preditivas. Os resultados mostram que modelos como GPT-5.4 e Claude S4.5 consistentemente superestimam os prazos para avanços, com atrasos que variam de 14 a 26 meses. Apesar de alcançarem alta precisão na identificação de direções de pesquisa plausíveis, os modelos têm dificuldades nas avaliações de viabilidade, atingindo apenas entre 45% e 52% de precisão. Isso destaca uma lacuna significativa na capacidade da IA de fornecer orientações confiáveis na exploração científica.

Você também pode gostar