Die National University of Singapore (NUS) hat GameWorld gestartet, einen neuen Benchmark, der darauf abzielt, die Bewertung multimodaler großer Sprachmodelle (MLLMs) als allgemeine Agenten in Videospielen zu standardisieren. GameWorld umfasst 34 Browserspiele und 170 Aufgaben, von denen jede über überprüfbare Metriken verfügt, um die Ergebnisse objektiv zu bewerten. Diese Initiative adressiert die Einschränkungen inkonsistenter Eingabeschnittstellen und manueller Überprüfungen in aktuellen Bewertungen. Das NUS-Team testete zwei Agentenschnittstellen: einen "Computer-Nutzungs"-Agenten, der Tastatur- und Mausbefehle ausgibt, und einen allgemeinen multimodalen Agenten, der semantische Analyse verwendet. In einer groß angelegten Bewertung mit 18 Modell-Schnittstellen-Kombinationen zeigten die Ergebnisse, dass aktuelle KI-Agenten noch nicht die spielerischen Fähigkeiten auf menschlichem Niveau erreichen. Die Studie hebt Herausforderungen wie Latenz bei der Echtzeitinteraktion und Sensitivität gegenüber kontextuellem Gedächtnis hervor. Das Forschungspapier und der Projektcode sind auf Hugging Face und GitHub verfügbar.