Các mô hình AI hàng đầu, bao gồm Claude của Anthropic và Gemini của Google, đã gặp khó khăn trong việc làm chủ trò chơi dành cho trẻ em Pokémon, làm nổi bật những khoảng trống đáng kể trong khả năng suy luận và lập kế hoạch dài hạn. Mặc dù xuất sắc trong các nhiệm vụ như kỳ thi y khoa và lập trình, các hệ thống AI này lại thất bại trong môi trường thế giới mở của Pokémon, nơi yêu cầu sự suy luận liên tục và trí nhớ. Claude của Anthropic, ngay cả trong phiên bản Opus 4.5 tiên tiến, cũng không thể điều hướng trò chơi một cách nhất quán, thường mắc những lỗi cơ bản và bị kẹt trong thời gian dài. Ngược lại, Gemini 2.5 Pro của Google đã hoàn thành thành công một trò chơi Pokémon đầy thử thách, được hỗ trợ bởi một bộ công cụ mạnh mẽ giúp bù đắp cho những hạn chế về thị giác và suy luận. Thử thách Pokémon làm nổi bật những khó khăn rộng lớn hơn mà AI phải đối mặt trong các nhiệm vụ đòi hỏi sự tập trung liên tục và khả năng thích ứng, trái ngược với thành công của nó trong các lĩnh vực chuyên biệt như cờ vua và cờ vây. Cuộc đấu tranh liên tục này đóng vai trò như một thước đo để đánh giá tiến trình của AI trong việc đạt được trí tuệ nhân tạo tổng quát.