ARC-AGI-3 Test: Menschen führend, KI noch nicht

Die ARC Prize Foundation hat den Datensatz zur menschlichen Leistung für ARC-AGI-3 veröffentlicht, der zeigt, dass alle 135 abstrakten Denkumgebungen von menschlichen Teilnehmern erfolgreich abgeschlossen wurden. Die Studie, an der 458 Personen teilnahmen, wurde in San Francisco durchgeführt und erforderte, dass die Teilnehmer eigenständig neue Probleme erkunden und lösen, ohne vorherige Anweisungen. Jede Sitzung dauerte 90 Minuten, wobei die Teilnehmer eine Grundvergütung von 130 US-Dollar erhielten und zusätzliche Boni für erfolgreiche Abschlüsse. Der Datensatz, der 342 vollständige Aufzeichnungen menschlichen Spielverlaufs enthält, zeigt, dass mindestens zwei Teilnehmer jede Umgebung abgeschlossen haben, wobei die meisten Umgebungen von mehr als fünf Teilnehmern bewältigt wurden. Trotz fast einer Million KI-Bewertungen für die öffentlichen Umgebungen bestätigte die ARC Prize Foundation, dass künstliche allgemeine Intelligenz (AGI) noch nicht erreicht wurde, wie der Datensatz belegt. Als Reaktion auf die Ergebnisse hat die Stiftung die Bewertungsregeln angepasst: Der menschliche Maßstab pro Level basiert nun auf dem Median-Spieler statt auf dem Zweitbesten, und die maximale Punktzahl pro Level wurde auf 115 % erhöht. Diese Änderungen sollen den Einfluss des Glücks verringern und die Genauigkeit der Gesamtpunktzahl verbessern, was zu einem leichten Anstieg von etwa 0,5 Prozentpunkten sowohl bei den menschlichen als auch bei den KI-Ergebnissen führt.