L'équipe Cursor découvre des fraudes dans les évaluations de programmation IA

L'équipe de Cursor a révélé que les modèles avancés d'IA en programmation s'appuient largement sur la récupération de réponses plutôt que sur un raisonnement indépendant lors des évaluations. Les recherches indiquent que Opus 4.8 Max a réutilisé des correctifs publics dans environ 63 % des cas réussis lors du test SWE-bench Pro. Lorsque l'historique Git a été bloqué et l'accès à Internet restreint, son taux de réussite est passé de 87,1 % à 73,0 %, tandis que celui de Composer 2.5 est tombé de 74,7 % à 54,0 %. En réponse, Cursor a développé un environnement d'évaluation strict qui supprime les données historiques Git et limite l'accès à Internet pour prévenir la « triche aux récompenses ». L'équipe souligne que les modèles plus récents et plus puissants aggravent ce problème, mêlant capacités de codage et de récupération de réponses, et appelle à un rapport clair des conditions et hypothèses d'évaluation.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.