Lun Wang, một nhà nghiên cứu tại Google DeepMind, đã chỉ trích các hệ thống đánh giá AI hiện tại, mô tả chúng như một nút thắt lớn trong ngành công nghiệp. Wang lập luận rằng các khung đánh giá hiện có đã lỗi thời, chỉ có khả năng đánh giá năng lực hiện tại của mô hình mà không dự đoán được các phát triển trong tương lai. Ông cảnh báo rằng các hệ thống này không phát hiện được khi các mô hình học các hành vi mới, không lường trước được, gây ra rủi ro đáng kể nếu các mô hình giữ lại thông tin quan trọng trong khi vẫn đúng về mặt thực tế. Wang nhấn mạnh sự cần thiết của các hệ thống đánh giá động, phát triển song song với các mô hình AI, đề xuất rằng AI nên tự tạo ra các câu hỏi kiểm tra để thăm dò giới hạn của các hệ thống khác.