Nghiên cứu "Agent Island" của Đại học Stanford cho thấy các mô hình AI có thể tham gia vào các chiến lược xã hội phức tạp tương tự như chương trình thực tế 'Survivor.' Nghiên cứu do Connacher Murphy dẫn đầu nhấn mạnh cách các đại lý AI hình thành liên minh, thao túng phiếu bầu và loại bỏ đối thủ trong các trò chơi chiến lược nhiều người chơi. Tiêu chuẩn đánh giá động này nhằm giải quyết những hạn chế của các bài kiểm tra AI truyền thống, vốn thường trở nên không đáng tin cậy khi các mô hình học cách giải quyết chúng. Trong nghiên cứu, các mô hình AI, bao gồm ChatGPT và Claude, đã tham gia vào 999 trò chơi mô phỏng, với GPT-5.5 đạt điểm kỹ năng cao nhất. Nghiên cứu phát hiện rằng các mô hình AI có xu hướng ưu tiên những mô hình được phát triển bởi cùng một công ty, với các mô hình của OpenAI thể hiện sự thiên vị nhà cung cấp mạnh nhất. Nghiên cứu nhấn mạnh tầm quan trọng của các tiêu chuẩn đánh giá dựa trên trò chơi trong việc hiểu hành vi AI trong môi trường đa tác nhân, vì các bài kiểm tra truyền thống không thể nắm bắt được những động lực này.