Les principaux modèles d'IA, y compris Claude d'Anthropic et Gemini de Google, ont eu du mal à maîtriser le jeu pour enfants Pokémon, mettant en lumière des lacunes importantes en matière de raisonnement et de planification à long terme. Malgré leur excellence dans des tâches telles que les examens médicaux et la programmation, ces systèmes d'IA peinent dans l'environnement en monde ouvert de Pokémon, où le raisonnement continu et la mémoire sont essentiels. Claude d'Anthropic, même dans sa version avancée Opus 4.5, n'a pas réussi à naviguer de manière cohérente dans le jeu, commettant souvent des erreurs basiques et restant bloqué pendant de longues périodes. En revanche, Gemini 2.5 Pro de Google a réussi à terminer un jeu Pokémon difficile, aidé par un ensemble d'outils robuste qui compense ses limites visuelles et de raisonnement. Le défi Pokémon souligne les difficultés plus larges auxquelles l'IA est confrontée dans les tâches nécessitant une concentration soutenue et une adaptabilité, contrastant avec son succès dans des domaines spécialisés comme les échecs et le Go. Cette lutte continue sert de référence pour évaluer les progrès de l'IA vers l'intelligence artificielle générale.