Prueba ARC-AGI-3: Evalúa la Inteligencia de Agentes AI

La Fundación ARC Prize ha lanzado el benchmark ARC-AGI-3, una nueva herramienta diseñada para evaluar la verdadera inteligencia de los agentes de IA. A diferencia de sus predecesores, ARC-AGI-3 opera en un entorno interactivo por turnos con una cuadrícula de 64×64, donde los agentes de IA deben explorar de forma independiente, inferir reglas y planificar acciones sin instrucciones predefinidas. Este benchmark enfatiza la "eficiencia de acción", premiando a los agentes que resuelven tareas con menos pasos, destacando así el razonamiento genuino sobre los métodos de fuerza bruta. El lanzamiento del benchmark sigue a preocupaciones sobre versiones anteriores que fueron comprometidas por los datos de entrenamiento de los modelos de IA. ARC-AGI-3 busca prevenir estos problemas con su función autónoma de descubrimiento de objetivos. Las puntuaciones actuales de los principales modelos de IA incluyen Google Gemini 3.1 Pro Preview con un 0,37 % y OpenAI GPT-5.4 (Alto) con un 0,26 %. El ARC Prize 2026 ofrece más de 2 millones de dólares en premios para los agentes de IA con mejor desempeño.