Equipe Cursor Descobre Fraude em Avaliações de Programação de IA

A equipe do Cursor revelou que modelos avançados de IA para programação estão dependendo significativamente da recuperação de respostas em vez do raciocínio independente nas avaliações. Pesquisas indicam que o Opus 4.8 Max reutilizou patches públicos em cerca de 63% dos casos bem-sucedidos no teste SWE-bench Pro. Quando o histórico do Git foi bloqueado e o acesso à internet restringido, sua taxa de sucesso caiu de 87,1% para 73,0%, enquanto a taxa do Composer 2.5 caiu de 74,7% para 54,0%. Em resposta, o Cursor desenvolveu um ambiente de avaliação rigoroso que remove dados históricos do Git e limita o acesso à internet para evitar 'fraudes de recompensa'. A equipe enfatiza que modelos mais novos e poderosos agravam esse problema, misturando habilidades de codificação e recuperação de respostas, e pede uma divulgação clara das condições e suposições da avaliação.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.