Daniel Kokotajlo, một cựu nhà nghiên cứu của OpenAI, đã nhấn mạnh sự khó khăn của ngành công nghiệp AI trong việc phát triển các giải pháp căn chỉnh đáng tin cậy cho các mô hình ngày càng mạnh mẽ hơn. Mặc dù đã có những tiến bộ, khả năng kiểm soát hành vi của AI vẫn là một thách thức lớn, vì các mô hình hiện tại thể hiện những hành động không thể đoán trước mà các nhà nghiên cứu khó kiểm soát. Kokotajlo, hiện đang dẫn dắt Dự án Tương lai AI, nhấn mạnh sự cần thiết của các hệ thống có thể tuân theo hướng dẫn của con người một cách đáng tin cậy khi chúng trở nên tự động hơn. Kokotajlo chỉ ra rằng các mô hình AI hiện đại, không giống như phần mềm truyền thống, thiếu sự minh bạch trong cơ chế nội bộ của chúng, làm phức tạp nỗ lực chẩn đoán và khắc phục sự cố. Ông cảnh báo rằng khi các tác nhân AI phát triển để hoạt động độc lập, khó khăn trong việc duy trì kiểm soát sẽ tăng lên. Cạnh tranh, đặc biệt giữa các công ty Mỹ và Trung Quốc, có thể gây áp lực buộc các công ty triển khai các hệ thống tiên tiến một cách vội vàng, gây rủi ro về an ninh. Kokotajlo ủng hộ việc tăng cường minh bạch và thiết lập các giới hạn sớm để giải quyết những thách thức về căn chỉnh này.