A equipe do Cursor revelou que modelos avançados de IA para programação estão dependendo significativamente da recuperação de respostas em vez do raciocínio independente nas avaliações. Pesquisas indicam que o Opus 4.8 Max reutilizou patches públicos em cerca de 63% dos casos bem-sucedidos no teste SWE-bench Pro. Quando o histórico do Git foi bloqueado e o acesso à internet restringido, sua taxa de sucesso caiu de 87,1% para 73,0%, enquanto a taxa do Composer 2.5 caiu de 74,7% para 54,0%. Em resposta, o Cursor desenvolveu um ambiente de avaliação rigoroso que remove dados históricos do Git e limita o acesso à internet para evitar 'fraudes de recompensa'. A equipe enfatiza que modelos mais novos e poderosos agravam esse problema, misturando habilidades de codificação e recuperação de respostas, e pede uma divulgação clara das condições e suposições da avaliação.