GPT-5.5がProgramBenchチャレンジで満点を達成

GPT-5.5は、Meta FAIR、スタンフォード大学、ハーバード大学が開発したベンチマークであるProgramBenchのバイナリ書き換えチャレンジで、初めて満点を達成したAIとなりました。このチャレンジは、ソースコードやヒントなしでコンパイル済みバイナリからプログラムを再構築することをAIに求めるものです。GPT-5.5は高推論モードで、C言語とPythonの両方でcmatrixプログラムを成功裏に再現し、それぞれ3.17ドルと4.84ドルのコストで全てのテストに合格しました。対照的に、Claude Opus 4.7はより高いコストとAPIコールにもかかわらず19のテストに失敗しました。この成果は、推論の強度がAIの性能に与える影響を浮き彫りにしていますが、完全なバイナリ理解はまだ遠い目標であることを示しています。

出典: 原文を表示

免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。

​​こちらもおすすめ​​

こちらもおすすめ