GPT-5.5, ProgramBench 챌린지에서 만점 달성

GPT-5.5는 Meta FAIR, 스탠포드, 하버드가 개발한 벤치마크인 ProgramBench 바이너리 재작성 챌린지에서 완벽한 점수를 받은 최초의 AI가 되었습니다. 이 챌린지는 AI가 소스 코드나 힌트 없이 컴파일된 바이너리에서 프로그램을 재구성해야 합니다. GPT-5.5는 고추론 모드에서 C와 파이썬으로 cmatrix 프로그램을 성공적으로 재구성하여 각각 3.17달러와 4.84달러의 비용으로 모든 테스트를 통과했습니다. 반면 Claude Opus 4.7은 더 높은 비용과 API 호출에도 불구하고 19개의 테스트에서 실패했습니다. 이 성과는 추론 강도가 AI 성능에 미치는 영향을 강조하지만, 완전한 바이너리 이해는 아직 먼 목표임을 보여줍니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.

함께 보면 좋은 콘텐츠