Lun Wang, một cựu nhà nghiên cứu tại Google DeepMind, đã gây ra cuộc tranh luận trong cộng đồng AI khi khẳng định rằng nút thắt chính của ngành không phải là sức mạnh tính toán, dữ liệu hay năng lượng, mà chính là hệ thống đánh giá. Trong một bài đăng blog chi tiết được xuất bản vào ngày 17 tháng 5 năm 2026, Wang lập luận rằng các phương pháp đánh giá hiện tại không thể dự đoán khi nào các mô hình AI sẽ phát triển các khả năng mới, dẫn chứng các ví dụ lịch sử về khả năng nổi bật và hiện tượng "grokking" làm bằng chứng. Phê bình của Wang tập trung vào giả định rằng các mô hình AI chỉ là phiên bản nâng cấp của các mô hình trước đó, điều mà ông cho là làm suy yếu khả năng của ngành trong việc dự đoán những thay đổi quan trọng trong khả năng của AI. Ông cảnh báo rằng nếu không có các chỉ số đánh giá chính xác, ngành AI có nguy cơ đào tạo các mô hình để giải quyết những vấn đề sai, có thể dẫn đến các chế độ thất bại không lường trước được. Những nhận định của Wang thách thức sự tập trung hiện tại của ngành vào việc mở rộng quy mô và nhấn mạnh sự cần thiết của một khung đánh giá vững chắc hơn để hướng dẫn phát triển AI trong tương lai.