Test ARC-AGI-3 : Humains en tête, IA à rattraper

La Fondation ARC Prize a publié le jeu de données sur la performance humaine pour ARC-AGI-3, révélant que les 135 environnements de raisonnement abstrait ont été complétés avec succès par des participants humains. L'étude, impliquant 458 individus, a été menée à San Francisco et a demandé aux participants d'explorer et de résoudre de manière autonome des problèmes nouveaux sans instructions préalables. Chaque session durait 90 minutes, avec une rémunération de base de 130 $ et des bonus supplémentaires pour les réussites. Le jeu de données, qui comprend 342 enregistrements complets de parties humaines, souligne qu'au moins deux participants ont complété chaque environnement, la plupart des environnements ayant été complétés par plus de cinq participants. Malgré près d'un million d'évaluations d'IA soumises pour les environnements publics, la Fondation ARC Prize a confirmé que l'intelligence artificielle générale (AGI) n'a pas encore été atteinte, comme en témoigne le jeu de données. En réponse aux résultats, la Fondation a ajusté les règles de notation : la référence humaine par niveau est désormais basée sur le joueur médian plutôt que sur le deuxième meilleur, et le score maximum par niveau a été augmenté à 115 %. Ces changements visent à réduire l'impact de la chance et à améliorer la précision globale des scores, entraînant une légère augmentation d'environ 0,5 point de pourcentage tant pour les scores humains que pour ceux de l'IA.