Новый эталонный тест CUSP, разработанный Стэнфордским университетом, Оксфордским университетом и Институтом искусственного интеллекта Аллена, выявляет значительные ограничения в способности моделей ИИ предсказывать научный прогресс. В ходе оценки были протестированы ведущие модели ИИ, такие как GPT-5.4, Claude Sonnet 4.5 и DeepSeek R1, и выяснилось, что хотя эти модели превосходны в механистическом рассуждении, их точность в предсказании новых научных открытий сопоставима с случайным угадыванием.
Эталонный тест CUSP, включающий 4760 научных вех и 17 429 оценочных заданий, вводит ограничения по времени отсечения знаний для оценки истинных предсказательных возможностей. Результаты показывают, что модели, такие как GPT-5.4 и Claude S4.5, систематически переоценивают сроки прорывов, с задержками от 14 до 26 месяцев. Несмотря на высокую точность в определении вероятных направлений исследований, модели испытывают трудности с оценкой осуществимости, достигая лишь 45–52% точности. Это подчеркивает значительный разрыв в способности ИИ предоставлять надежные рекомендации в научных исследованиях.
Бенчмарк CUSP выявляет ограничения моделей ИИ в научном прогнозировании
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
