Lun Wang, chercheur chez Google DeepMind, a critiqué les systèmes actuels d'évaluation de l'IA, les qualifiant de principal goulot d'étranglement dans l'industrie. Wang soutient que les cadres existants sont obsolètes, capables uniquement d'évaluer les capacités actuelles des modèles sans prévoir les développements futurs. Il met en garde contre le fait que ces systèmes ne détectent pas lorsque les modèles apprennent de nouveaux comportements imprévus, ce qui représente des risques importants si les modèles retiennent des informations critiques tout en restant factuellement corrects. Wang souligne la nécessité de systèmes d'évaluation dynamiques qui évoluent en même temps que les modèles d'IA, suggérant que l'IA devrait générer ses propres questions de test pour sonder les limites des autres systèmes.