Google DeepMind'de araştırmacı olan Lun Wang, mevcut yapay zeka değerlendirme sistemlerini eleştirerek bunları sektörde büyük bir darboğaz olarak nitelendirdi. Wang, mevcut çerçevelerin güncel olmadığını, yalnızca mevcut model yeteneklerini değerlendirebildiğini ancak gelecekteki gelişmeleri öngöremediğini savunuyor. Bu sistemlerin, modellerin yeni ve beklenmedik davranışlar öğrenmesini tespit edemediği konusunda uyarıda bulunuyor ve modeller kritik bilgileri saklarken gerçeğe uygun kalmaları durumunda önemli riskler oluşturabileceğini belirtiyor. Wang, yapay zeka modelleriyle birlikte evrilen dinamik değerlendirme sistemlerine ihtiyaç olduğunu vurguluyor ve yapay zekanın diğer sistemlerin sınırlarını test etmek için kendi test sorularını üretmesi gerektiğini öneriyor.