ARC-AGI-3 ベンチマークでAIエージェントの知能を評価

ARCプライズ財団は、AIエージェントの真の知能を評価するための新しいツールであるARC-AGI-3ベンチマークを発表しました。従来のものとは異なり、ARC-AGI-3はインタラクティブなターン制の64×64グリッド環境で動作し、AIエージェントは事前に定義された指示なしに独自に探索し、ルールを推論し、行動を計画する必要があります。このベンチマークは「行動効率」を重視しており、より少ないステップでタスクを解決したエージェントに報酬を与え、ブルートフォース的な方法よりも真の推論能力を際立たせます。このベンチマークのリリースは、以前のバージョンがAIモデルのトレーニングデータによって影響を受けた懸念を受けてのものです。ARC-AGI-3は、自律的な目標発見機能によりそのような問題を防ぐことを目指しています。現在の主要なAIモデルのスコアは、Google Gemini 3.1 Pro Previewが0.37％、OpenAI GPT-5.4（High）が0.26％です。ARCプライズ2026では、トップパフォーマンスのAIエージェントに200万ドル以上の賞金が提供されます。