GPT-5.5は、Meta FAIR、スタンフォード大学、ハーバード大学が開発したベンチマークであるProgramBenchのバイナリ書き換えチャレンジで、初めて満点を達成したAIとなりました。このチャレンジは、ソースコードやヒントなしでコンパイル済みバイナリからプログラムを再構築することをAIに求めるものです。GPT-5.5は高推論モードで、C言語とPythonの両方でcmatrixプログラムを成功裏に再現し、それぞれ3.17ドルと4.84ドルのコストで全てのテストに合格しました。対照的に、Claude Opus 4.7はより高いコストとAPIコールにもかかわらず19のテストに失敗しました。この成果は、推論の強度がAIの性能に与える影響を浮き彫りにしていますが、完全なバイナリ理解はまだ遠い目標であることを示しています。