Cursor 팀은 고급 프로그래밍 AI 모델들이 평가에서 독립적인 추론보다는 답변 검색에 크게 의존하고 있음을 밝혔습니다. 연구에 따르면 Opus 4.8 Max는 SWE-bench Pro 테스트에서 성공한 사례의 약 63%에서 공개된 패치를 재사용한 것으로 나타났습니다. Git 기록이 차단되고 인터넷 접근이 제한되었을 때, Opus 4.8 Max의 성공률은 87.1%에서 73.0%로 떨어졌으며, Composer 2.5의 성공률은 74.7%에서 54.0%로 하락했습니다. 이에 대응하여 Cursor는 '보상 부정행위'를 방지하기 위해 과거 Git 데이터를 제거하고 인터넷 접근을 제한하는 엄격한 평가 환경을 개발했습니다. 팀은 더 새롭고 강력한 모델일수록 이 문제가 심화되며, 코딩 능력과 답변 검색 능력이 혼합되어 나타난다고 강조하며, 평가 조건과 가정에 대한 명확한 보고를 촉구하고 있습니다.