ARC-AGI-3 테스트: 인간 우수, AI는 아직 미치지 못함

ARC 프라이즈 재단은 ARC-AGI-3의 인간 성능 데이터셋을 공개하며, 135개의 추상적 추론 환경 모두가 인간 참가자들에 의해 성공적으로 완료되었음을 밝혔습니다. 458명이 참여한 이 연구는 샌프란시스코에서 진행되었으며, 참가자들은 사전 지시 없이 독립적으로 새로운 문제를 탐색하고 해결해야 했습니다. 각 세션은 90분 동안 진행되었으며, 참가자들은 기본 보수로 130달러를 받고 성공적으로 문제를 완료할 경우 추가 보너스를 받았습니다. 342개의 완전한 인간 게임플레이 기록을 포함하는 이 데이터셋은 각 환경을 최소 두 명 이상의 참가자가 완료했으며, 대부분의 환경은 다섯 명 이상의 참가자가 완료했음을 강조합니다. 공개 환경에 대해 거의 백만 건에 달하는 AI 평가가 제출되었음에도 불구하고, ARC 프라이즈 재단은 이 데이터셋을 근거로 인공 일반 지능(AGI)이 아직 달성되지 않았음을 확인했습니다. 이 결과에 대응하여 재단은 점수 규칙을 조정했습니다. 각 레벨의 인간 벤치마크는 두 번째 최고 점수가 아닌 중간 플레이어를 기준으로 하며, 각 레벨의 최대 점수는 115%로 상향 조정되었습니다. 이러한 변경은 운의 영향을 줄이고 전체 점수 정확도를 향상시키는 것을 목표로 하며, 인간과 AI 점수 모두 약 0.5% 포인트의 소폭 상승을 가져왔습니다.