L'Université Nationale de Singapour (NUS) a lancé GameWorld, un nouveau référentiel visant à standardiser l'évaluation des modèles de langage multimodaux de grande taille (MLLM) en tant qu'agents généraux dans les jeux vidéo. GameWorld comprend 34 jeux accessibles via navigateur et 170 tâches, chacune dotée de métriques vérifiables pour évaluer objectivement les résultats. Cette initiative répond aux limites des interfaces d'entrée incohérentes et de la vérification manuelle dans les évaluations actuelles. L'équipe de la NUS a testé deux interfaces d'agents : un agent « usage ordinateur » qui génère des commandes clavier et souris, et un agent multimodal général utilisant l'analyse sémantique. Lors d'une évaluation à grande échelle impliquant 18 combinaisons modèle-interface, les résultats ont montré que les agents IA actuels sont encore loin d'atteindre les capacités de jeu au niveau humain. L'étude met en lumière des défis tels que la latence des interactions en temps réel et la sensibilité à la mémoire contextuelle. L'article de recherche et le code du projet sont disponibles sur Hugging Face et GitHub.