La Fondation ARC Prize a lancé le benchmark ARC-AGI-3, un nouvel outil conçu pour évaluer la véritable intelligence des agents d'IA. Contrairement à ses prédécesseurs, ARC-AGI-3 fonctionne dans un environnement interactif au tour par tour sur une grille de 64×64, où les agents d'IA doivent explorer de manière autonome, déduire des règles et planifier des actions sans instructions prédéfinies. Ce benchmark met l'accent sur « l'efficacité de l'action », récompensant les agents qui résolvent les tâches en moins d'étapes, mettant ainsi en avant un raisonnement authentique plutôt que des méthodes de force brute. La sortie de ce benchmark fait suite à des inquiétudes concernant les versions précédentes compromises par les données d'entraînement des modèles d'IA. ARC-AGI-3 vise à prévenir ces problèmes grâce à sa fonction autonome de découverte d'objectifs. Les scores actuels des principaux modèles d'IA incluent Google Gemini 3.1 Pro Preview à 0,37 % et OpenAI GPT-5.4 (High) à 0,26 %. Le ARC Prize 2026 offre plus de 2 millions de dollars de prix pour les agents d'IA les plus performants.