Тест CUSP выявляет ограничения прогнозов ИИ

Новый эталонный тест CUSP, разработанный Стэнфордским университетом, Оксфордским университетом и Институтом искусственного интеллекта Аллена, выявляет значительные ограничения в способности моделей ИИ предсказывать научный прогресс. В ходе оценки были протестированы ведущие модели ИИ, такие как GPT-5.4, Claude Sonnet 4.5 и DeepSeek R1, и выяснилось, что хотя эти модели превосходны в механистическом рассуждении, их точность в предсказании новых научных открытий сопоставима с случайным угадыванием. Эталонный тест CUSP, включающий 4760 научных вех и 17 429 оценочных заданий, вводит ограничения по времени отсечения знаний для оценки истинных предсказательных возможностей. Результаты показывают, что модели, такие как GPT-5.4 и Claude S4.5, систематически переоценивают сроки прорывов, с задержками от 14 до 26 месяцев. Несмотря на высокую точность в определении вероятных направлений исследований, модели испытывают трудности с оценкой осуществимости, достигая лишь 45–52% точности. Это подчеркивает значительный разрыв в способности ИИ предоставлять надежные рекомендации в научных исследованиях.

Вам также может понравиться