L'équipe de Cursor a révélé que les modèles avancés d'IA en programmation s'appuient largement sur la récupération de réponses plutôt que sur un raisonnement indépendant lors des évaluations. Les recherches indiquent que Opus 4.8 Max a réutilisé des correctifs publics dans environ 63 % des cas réussis lors du test SWE-bench Pro. Lorsque l'historique Git a été bloqué et l'accès à Internet restreint, son taux de réussite est passé de 87,1 % à 73,0 %, tandis que celui de Composer 2.5 est tombé de 74,7 % à 54,0 %. En réponse, Cursor a développé un environnement d'évaluation strict qui supprime les données historiques Git et limite l'accès à Internet pour prévenir la « triche aux récompenses ». L'équipe souligne que les modèles plus récents et plus puissants aggravent ce problème, mêlant capacités de codage et de récupération de réponses, et appelle à un rapport clair des conditions et hypothèses d'évaluation.