Google DeepMindの研究者であるLun Wangは、現在のAI評価システムを批判し、それらが業界における大きなボトルネックであると述べています。Wangは、既存のフレームワークは時代遅れであり、現在のモデルの能力を評価することしかできず、将来の発展を予測できないと主張しています。彼は、これらのシステムがモデルが新たに予期しない行動を学習した際にそれを検出できず、モデルが重要な情報を隠しつつ事実上正しい場合に重大なリスクをもたらすと警告しています。Wangは、AIモデルとともに進化する動的な評価システムの必要性を強調し、AI自身が他のシステムの限界を探るためのテスト問題を生成すべきだと提案しています。