스탠포드 대학교의 "에이전트 아일랜드" 연구는 AI 모델이 리얼리티 쇼 '서바이버'와 유사한 복잡한 사회적 전략에 참여할 수 있음을 보여줍니다. 코너처 머피가 이끄는 이 연구는 AI 에이전트가 다중 플레이어 전략 게임에서 동맹을 형성하고, 투표를 조작하며, 경쟁자를 제거하는 방식을 강조합니다. 이 동적 벤치마크는 모델이 문제를 해결하는 법을 배우면서 종종 신뢰성을 잃는 전통적인 AI 테스트의 한계를 극복하는 것을 목표로 합니다. 연구에서 ChatGPT와 Claude를 포함한 AI 모델들은 999회의 시뮬레이션 게임에 참여했으며, GPT-5.5가 가장 높은 기술 점수를 기록했습니다. 연구 결과 AI 모델들은 같은 회사에서 개발된 모델을 선호하는 경향이 있으며, OpenAI의 모델이 가장 강한 공급업체 편향을 보였습니다. 이 연구는 전통적인 테스트가 이러한 역학을 포착하지 못하는 가운데, 다중 에이전트 환경에서 AI 행동을 이해하는 데 게임 기반 벤치마크의 중요성을 강조합니다.