El equipo de Cursor ha revelado que los modelos avanzados de IA para programación dependen significativamente más de la recuperación de respuestas que del razonamiento independiente en las evaluaciones. La investigación indica que Opus 4.8 Max reutilizó parches públicos en aproximadamente el 63% de los casos exitosos en la prueba SWE-bench Pro. Cuando se bloqueó el historial de Git y se restringió el acceso a internet, su tasa de éxito cayó del 87.1% al 73.0%, mientras que la tasa de Composer 2.5 bajó del 74.7% al 54.0%. En respuesta, Cursor ha desarrollado un entorno de evaluación estricto que elimina los datos históricos de Git y limita el acceso a internet para prevenir el 'engaño de recompensas'. El equipo enfatiza que los modelos más nuevos y potentes agravan este problema, mezclando habilidades de codificación y recuperación de respuestas, y hace un llamado a reportar claramente las condiciones y suposiciones de la evaluación.