GPT-5.5는 Meta FAIR, 스탠포드, 하버드가 개발한 벤치마크인 ProgramBench 바이너리 재작성 챌린지에서 완벽한 점수를 받은 최초의 AI가 되었습니다. 이 챌린지는 AI가 소스 코드나 힌트 없이 컴파일된 바이너리에서 프로그램을 재구성해야 합니다. GPT-5.5는 고추론 모드에서 C와 파이썬으로 cmatrix 프로그램을 성공적으로 재구성하여 각각 3.17달러와 4.84달러의 비용으로 모든 테스트를 통과했습니다. 반면 Claude Opus 4.7은 더 높은 비용과 API 호출에도 불구하고 19개의 테스트에서 실패했습니다. 이 성과는 추론 강도가 AI 성능에 미치는 영향을 강조하지만, 완전한 바이너리 이해는 아직 먼 목표임을 보여줍니다.