Teste ARC-AGI-3 Avalia Inteligência de Agentes de IA

A Fundação ARC Prize lançou o benchmark ARC-AGI-3, uma nova ferramenta projetada para avaliar a verdadeira inteligência dos agentes de IA. Diferentemente de seus predecessores, o ARC-AGI-3 opera em um ambiente interativo, baseado em turnos, com uma grade de 64×64, onde os agentes de IA devem explorar de forma independente, inferir regras e planejar ações sem instruções pré-definidas. Este benchmark enfatiza a "eficiência de ação", recompensando agentes que resolvem tarefas com menos passos, destacando assim o raciocínio genuíno em vez de métodos de força bruta. O lançamento do benchmark ocorre após preocupações de que versões anteriores foram comprometidas pelos dados de treinamento dos modelos de IA. O ARC-AGI-3 visa prevenir tais problemas com seu recurso autônomo de descoberta de objetivos. As pontuações atuais dos principais modelos de IA incluem Google Gemini 3.1 Pro Preview com 0,37% e OpenAI GPT-5.4 (High) com 0,26%. O ARC Prize 2026 oferece mais de 2 milhões de dólares em prêmios para os agentes de IA com melhor desempenho.