Anthropic의 Claude와 Google의 Gemini를 포함한 최고 수준의 AI 모델들이 어린이 게임인 포켓몬을 완벽하게 마스터하는 데 어려움을 겪고 있으며, 이는 장기적인 추론과 계획 능력에 큰 격차가 있음을 보여줍니다. 의료 시험이나 코딩과 같은 과제에서는 뛰어난 성과를 보이지만, 이러한 AI 시스템들은 지속적인 추론과 기억이 중요한 포켓몬의 오픈 월드 환경에서는 실패하고 있습니다. Anthropic의 Claude는 고급 버전인 Opus 4.5에서도 일관되게 게임을 진행하지 못하고 기본적인 실수를 자주 범하며 오랜 시간 동안 막히는 경우가 많았습니다. 반면 Google의 Gemini 2.5 Pro는 시각적 및 추론 능력의 한계를 보완하는 강력한 도구 세트의 도움으로 도전적인 포켓몬 게임을 성공적으로 완료했습니다. 포켓몬 도전 과제는 지속적인 집중력과 적응력이 요구되는 작업에서 AI가 직면한 더 넓은 어려움을 강조하며, 체스나 바둑과 같은 전문 분야에서의 성공과 대조를 이룹니다. 이 지속적인 어려움은 AI가 일반 인공지능을 달성하는 데 있어 진전을 평가하는 기준점으로 작용합니다.