Teste ARC-AGI-3: Humanos Lideram, IA Ainda Atrás

A Fundação ARC Prize divulgou o conjunto de dados de desempenho humano para o ARC-AGI-3, revelando que todos os 135 ambientes de raciocínio abstrato foram concluídos com sucesso por participantes humanos. O estudo, que envolveu 458 indivíduos, foi realizado em São Francisco e exigiu que os participantes explorassem e resolvessem problemas novos de forma independente, sem instruções prévias. Cada sessão durou 90 minutos, com os participantes recebendo um pagamento base de US$ 130 e bônus adicionais por conclusões bem-sucedidas. O conjunto de dados, que inclui 342 gravações completas de jogos humanos, destaca que pelo menos dois participantes completaram cada ambiente, com a maioria dos ambientes sendo concluída por mais de cinco participantes. Apesar de quase um milhão de avaliações de IA submetidas para os ambientes públicos, a Fundação ARC Prize confirmou que a inteligência geral artificial (AGI) ainda não foi alcançada, conforme evidenciado pelo conjunto de dados. Em resposta às descobertas, a Fundação ajustou as regras de pontuação: o parâmetro humano por nível agora é baseado no jogador mediano em vez do segundo melhor, e a pontuação máxima por nível foi aumentada para 115%. Essas mudanças visam reduzir o impacto da sorte e melhorar a precisão geral das pontuações, resultando em um leve aumento de aproximadamente 0,5 pontos percentuais tanto nas pontuações humanas quanto nas de IA.