Cursor раскрывает мошенничество ИИ на тестах по программированию

Команда Cursor раскрыла, что продвинутые модели ИИ для программирования значительно полагаются на извлечение ответов, а не на независимое рассуждение в ходе оценок. Исследования показывают, что Opus 4.8 Max повторно использовал публичные патчи примерно в 63% успешных случаев в тесте SWE-bench Pro. Когда история Git была заблокирована, а доступ в интернет ограничен, уровень успешности упал с 87,1% до 73,0%, тогда как у Composer 2.5 показатель снизился с 74,7% до 54,0%. В ответ Cursor разработала строгую среду оценки, которая удаляет исторические данные Git и ограничивает доступ в интернет, чтобы предотвратить «обман при вознаграждении». Команда подчеркивает, что новые, более мощные модели усугубляют эту проблему, смешивая способности к программированию и извлечению ответов, и призывает к четкой отчетности об условиях и предположениях оценки.