GPT-5.5 est devenu la première IA à obtenir un score parfait au défi de réécriture binaire ProgramBench, un benchmark développé par Meta FAIR, Stanford et Harvard. Ce défi exige que l'IA reconstruise des programmes à partir de binaires compilés sans code source ni indices. GPT-5.5, en mode de raisonnement intensif, a réussi à recréer le programme cmatrix en C et en Python, réussissant tous les tests pour des coûts respectifs de 3,17 $ et 4,84 $. En revanche, Claude Opus 4.7 a échoué à 19 tests malgré des coûts et des appels API plus élevés. Cette réussite met en lumière l'impact de l'intensité du raisonnement sur la performance de l'IA, bien que la compréhension complète des binaires reste un objectif lointain.