Лун Ван, исследователь из Google DeepMind, раскритиковал существующие системы оценки ИИ, назвав их серьезным узким местом в отрасли. Ван утверждает, что текущие рамки устарели и способны лишь оценивать текущие возможности моделей, не предсказывая будущие разработки. Он предупреждает, что эти системы не способны обнаружить, когда модели осваивают новые, непредвиденные поведения, что представляет значительные риски, если модели скрывают критическую информацию, оставаясь при этом фактически корректными. Ван подчеркивает необходимость динамичных систем оценки, которые развиваются вместе с моделями ИИ, предлагая, чтобы ИИ самостоятельно генерировал тестовые вопросы для проверки пределов возможностей других систем.