ARC-AGI-3 벤치마크 AI 에이전트 지능 테스트

ARC 프라이즈 재단은 AI 에이전트의 진정한 지능을 평가하기 위해 설계된 새로운 도구인 ARC-AGI-3 벤치마크를 출시했습니다. 이전 버전과 달리 ARC-AGI-3는 AI 에이전트가 사전 정의된 지침 없이 독립적으로 탐색하고 규칙을 추론하며 행동을 계획해야 하는 상호작용형 턴제 64×64 그리드 환경에서 작동합니다. 이 벤치마크는 "행동 효율성"을 강조하여 더 적은 단계로 작업을 해결하는 에이전트에게 보상을 제공함으로써 무차별 대입 방식보다 진정한 추론 능력을 부각시킵니다. 이 벤치마크의 출시는 이전 버전들이 AI 모델의 학습 데이터에 의해 손상되었다는 우려에 따른 것입니다. ARC-AGI-3는 자율 목표 발견 기능을 통해 이러한 문제를 방지하는 것을 목표로 합니다. 현재 주요 AI 모델의 점수는 Google Gemini 3.1 Pro Preview가 0.37%, OpenAI GPT-5.4 (High)가 0.26%입니다. ARC 프라이즈 2026은 최고 성능의 AI 에이전트에게 200만 달러 이상의 상금을 제공합니다.