ARC-AGI-3 Benchmarki: Yapay Zeka Ajanlarının Zekası

ARC Prize Vakfı, yapay zeka ajanlarının gerçek zekasını değerlendirmek için tasarlanmış yeni bir araç olan ARC-AGI-3 kıyaslamasını başlattı. Öncekilerden farklı olarak, ARC-AGI-3, yapay zeka ajanlarının önceden tanımlanmış talimatlar olmadan bağımsız olarak keşfetmesi, kuralları çıkarması ve eylemleri planlaması gereken etkileşimli, sıra tabanlı 64×64 ızgara ortamında çalışır. Bu kıyaslama, "eylem verimliliği"ne vurgu yaparak, görevleri daha az adımda çözen ajanları ödüllendirir ve böylece kaba kuvvet yöntemleri yerine gerçek akıl yürütmeyi ön plana çıkarır. Kıyaslamanın yayınlanması, önceki sürümlerin yapay zeka modellerinin eğitim verileri tarafından etkilenmiş olabileceği endişelerinin ardından gerçekleşti. ARC-AGI-3, otonom hedef keşfi özelliğiyle bu tür sorunları önlemeyi amaçlıyor. Önde gelen yapay zeka modellerinin mevcut puanları arasında Google Gemini 3.1 Pro Preview %0,37 ve OpenAI GPT-5.4 (Yüksek) %0,26 yer alıyor. ARC Prize 2026, en iyi performans gösteren yapay zeka ajanları için 2 milyon dolardan fazla ödül sunuyor.