ARC-AGI-3 Benchmark: KI-Agenten Intelligenztest

Die ARC Prize Foundation hat den ARC-AGI-3 Benchmark vorgestellt, ein neues Werkzeug zur Bewertung der tatsächlichen Intelligenz von KI-Agenten. Im Gegensatz zu seinen Vorgängern arbeitet ARC-AGI-3 in einer interaktiven, rundenbasierten 64×64 Rasterumgebung, in der KI-Agenten eigenständig erkunden, Regeln ableiten und Aktionen planen müssen, ohne vorgegebene Anweisungen. Dieser Benchmark legt besonderen Wert auf "Handlungseffizienz" und belohnt Agenten, die Aufgaben mit weniger Schritten lösen, wodurch echtes Denken gegenüber reiner Ausprobiermethode hervorgehoben wird. Die Veröffentlichung des Benchmarks folgt auf Bedenken, dass frühere Versionen durch Trainingsdaten von KI-Modellen kompromittiert wurden. ARC-AGI-3 soll solche Probleme durch seine autonome Zielentdeckungsfunktion verhindern. Aktuelle Ergebnisse führender KI-Modelle sind Google Gemini 3.1 Pro Preview mit 0,37 % und OpenAI GPT-5.4 (High) mit 0,26 %. Der ARC Prize 2026 bietet über 2 Millionen US-Dollar an Preisen für die leistungsstärksten KI-Agenten.