AIモデルがポケモンで苦戦、推論の穴が露呈

AnthropicのClaudeやGoogleのGeminiを含む主要なAIモデルは、子供向けゲームのポケモンをマスターするのに苦戦しており、長期的な推論や計画における大きなギャップを浮き彫りにしています。医療試験やコーディングなどのタスクで優れているにもかかわらず、これらのAIシステムは、継続的な推論と記憶が重要なポケモンのオープンワールド環境ではうまく機能しません。 AnthropicのClaudeは、進化版のOpus 4.5でも一貫してゲームを進めることができず、基本的なミスを犯したり、長時間行き詰まったりすることがよくあります。一方、GoogleのGemini 2.5 Proは、視覚や推論の制限を補う強力なツールセットの助けを借りて、難しいポケモンゲームを成功裏にクリアしました。このポケモンの課題は、持続的な集中力と適応力を必要とするタスクにおいてAIが直面するより広範な困難を浮き彫りにしており、チェスや囲碁のような専門分野での成功とは対照的です。この継続的な苦闘は、汎用人工知能の達成に向けたAIの進歩を評価するためのベンチマークとなっています。