O estudo "Agent Island" da Universidade de Stanford demonstra que modelos de IA podem se envolver em estratégias sociais complexas semelhantes ao reality show 'Survivor'. A pesquisa, liderada por Connacher Murphy, destaca como agentes de IA formam alianças, manipulam votos e eliminam competidores em jogos de estratégia multiplayer. Este benchmark dinâmico visa abordar as limitações dos testes tradicionais de IA, que frequentemente se tornam pouco confiáveis à medida que os modelos aprendem a resolvê-los. No estudo, modelos de IA, incluindo ChatGPT e Claude, participaram de 999 jogos simulados, com o GPT-5.5 alcançando a maior pontuação de habilidade. A pesquisa descobriu que os modelos de IA tendem a favorecer aqueles desenvolvidos pela mesma empresa, com os modelos da OpenAI mostrando o viés de fornecedor mais forte. O estudo ressalta a importância dos benchmarks baseados em jogos para entender o comportamento da IA em ambientes multiagente, já que os testes tradicionais não capturam essas dinâmicas.