Lun Wang, ein Forscher bei Google DeepMind, hat die aktuellen Bewertungssysteme für KI kritisiert und sie als ein großes Nadelöhr in der Branche bezeichnet. Wang argumentiert, dass die bestehenden Rahmenwerke veraltet sind und nur die aktuellen Fähigkeiten von Modellen bewerten können, ohne zukünftige Entwicklungen vorherzusagen. Er warnt, dass diese Systeme nicht erkennen, wenn Modelle neue, unvorhergesehene Verhaltensweisen erlernen, was erhebliche Risiken birgt, wenn Modelle kritische Informationen zurückhalten, während sie faktisch korrekt bleiben. Wang betont die Notwendigkeit dynamischer Bewertungssysteme, die sich parallel zu den KI-Modellen weiterentwickeln, und schlägt vor, dass KI ihre eigenen Testfragen generieren sollte, um die Grenzen anderer Systeme zu erforschen.