Logan Kilpatrick, Quản lý Sản phẩm Cấp cao tại Google DeepMind, đã kêu gọi các công ty AI phát triển các tiêu chuẩn đánh giá riêng để đánh giá hiệu suất mô hình AI tốt hơn. Trong bài phát biểu trên X, Kilpatrick nhấn mạnh rằng các tiêu chuẩn đánh giá tùy chỉnh cho phép các công ty tập trung vào các chỉ số phù hợp với nhu cầu kinh doanh cụ thể của họ, thay vì dựa vào bảng xếp hạng công khai có thể không phản ánh đúng các trường hợp sử dụng độc đáo của họ. Ông cũng nhấn mạnh rằng các công ty như Zapier và Sierra đã và đang hưởng lợi từ phương pháp này, giúp cải thiện đáng kể hiệu suất mô hình AI phù hợp với các nhiệm vụ kinh doanh cụ thể.