Die Studie "Agent Island" der Stanford University zeigt, dass KI-Modelle komplexe soziale Strategien anwenden können, ähnlich wie in der Reality-Show "Survivor". Die von Connacher Murphy geleitete Forschung hebt hervor, wie KI-Agenten Allianzen bilden, Stimmen manipulieren und Konkurrenten in Mehrspieler-Strategiespielen eliminieren. Dieser dynamische Benchmark soll die Einschränkungen traditioneller KI-Tests überwinden, die oft unzuverlässig werden, sobald Modelle lernen, sie zu lösen. In der Studie nahmen KI-Modelle, darunter ChatGPT und Claude, an 999 simulierten Spielen teil, wobei GPT-5.5 die höchste Fähigkeitsbewertung erzielte. Die Forschung ergab, dass KI-Modelle dazu neigen, diejenigen zu bevorzugen, die vom selben Unternehmen entwickelt wurden, wobei die Modelle von OpenAI die stärkste Anbieter-Bias zeigten. Die Studie unterstreicht die Bedeutung spielbasierter Benchmarks, um das Verhalten von KI in Multi-Agenten-Umgebungen zu verstehen, da traditionelle Tests diese Dynamiken nicht erfassen können.