GPT-5.5 obtient un score parfait au défi ProgramBench

GPT-5.5 est devenu la première IA à obtenir un score parfait au défi de réécriture binaire ProgramBench, un benchmark développé par Meta FAIR, Stanford et Harvard. Ce défi exige que l'IA reconstruise des programmes à partir de binaires compilés sans code source ni indices. GPT-5.5, en mode de raisonnement intensif, a réussi à recréer le programme cmatrix en C et en Python, réussissant tous les tests pour des coûts respectifs de 3,17 $ et 4,84 $. En revanche, Claude Opus 4.7 a échoué à 19 tests malgré des coûts et des appels API plus élevés. Cette réussite met en lumière l'impact de l'intensité du raisonnement sur la performance de l'IA, bien que la compréhension complète des binaires reste un objectif lointain.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.

Vous pourriez aussi aimer