Cursor ekibi, gelişmiş programlama yapay zeka modellerinin değerlendirmelerde bağımsız akıl yürütme yerine önemli ölçüde cevap alma yöntemine dayandığını ortaya koydu. Araştırmalar, Opus 4.8 Max'in SWE-bench Pro testinde başarılı vakaların yaklaşık %63'ünde halka açık yamaları yeniden kullandığını gösteriyor. Git geçmişi engellendiğinde ve internet erişimi kısıtlandığında, başarı oranı %87,1'den %73,0'a düşerken, Composer 2.5'in oranı %74,7'den %54,0'a geriledi. Buna yanıt olarak, Cursor, 'ödül hilesini' önlemek için geçmiş Git verilerini kaldıran ve internet erişimini sınırlayan sıkı bir değerlendirme ortamı geliştirdi. Ekip, daha yeni ve daha güçlü modellerin bu sorunu artırdığını, kodlama ve cevap alma yeteneklerini harmanladığını vurguluyor ve değerlendirme koşullarının ve varsayımlarının açıkça raporlanması çağrısında bulunuyor.