Modelos de IA fallan con Pokémon, revelando fallos de lógica

Los principales modelos de IA, incluidos Claude de Anthropic y Gemini de Google, han tenido dificultades para dominar el juego infantil Pokémon, lo que pone de manifiesto importantes lagunas en el razonamiento y la planificación a largo plazo. A pesar de sobresalir en tareas como exámenes médicos y programación, estos sistemas de IA fallan en el entorno de mundo abierto de Pokémon, donde el razonamiento continuo y la memoria son cruciales. Claude de Anthropic, incluso en su avanzada versión Opus 4.5, no ha logrado navegar consistentemente el juego, cometiendo errores básicos y quedándose atascado durante períodos prolongados. En contraste, Gemini 2.5 Pro de Google completó con éxito un juego desafiante de Pokémon, apoyado por un conjunto robusto de herramientas que compensan sus limitaciones visuales y de razonamiento. El desafío de Pokémon subraya las dificultades más amplias que enfrenta la IA en tareas que requieren concentración sostenida y adaptabilidad, en contraste con su éxito en dominios especializados como el ajedrez y el Go. Esta lucha continua sirve como un punto de referencia para evaluar el progreso de la IA hacia la consecución de una inteligencia artificial general.