Yapay Zeka Modelleri Pokémon'da Zorluk Yaşıyor

Anthropic'in Claude'u ve Google'ın Gemini'si de dahil olmak üzere önde gelen yapay zeka modelleri, çocuk oyunu Pokémon'u ustalıkla oynama konusunda zorlanıyor ve bu durum uzun vadeli muhakeme ve planlamadaki önemli eksiklikleri ortaya koyuyor. Tıbbi sınavlar ve kodlama gibi görevlerde başarılı olmalarına rağmen, bu yapay zeka sistemleri, sürekli muhakeme ve hafızanın kritik olduğu Pokémon'un açık dünya ortamında başarısız oluyor. Anthropic'in Claude'u, gelişmiş Opus 4.5 sürümünde bile oyunda tutarlı bir şekilde ilerleyemiyor, sık sık temel hatalar yapıyor ve uzun süre takılı kalıyor. Buna karşılık, Google'ın Gemini 2.5 Pro'su, görsel ve muhakeme sınırlamalarını telafi eden güçlü bir araç seti sayesinde zorlu bir Pokémon oyununu başarıyla tamamladı. Pokémon meydan okuması, yapay zekanın sürekli odaklanma ve uyum sağlama gerektiren görevlerde karşılaştığı daha geniş zorlukları vurguluyor; bu durum, satranç ve Go gibi uzmanlaşmış alanlardaki başarısıyla tezat oluşturuyor. Bu devam eden mücadele, yapay zekanın genel yapay zekaya ulaşma yolundaki ilerlemesini değerlendirmek için bir kıstas olarak hizmet ediyor.