L'Université Nationale de Singapour (NUS) a lancé GameWorld, un nouveau référentiel visant à standardiser l'évaluation des modèles de langage multimodaux de grande taille (MLLM) en tant qu'agents généraux dans les jeux vidéo. GameWorld comprend 34 jeux accessibles via navigateur et 170 tâches, chacune dotée de métriques vérifiables pour évaluer objectivement les résultats. Cette initiative répond aux limites des interfaces d'entrée incohérentes et de la vérification manuelle dans les évaluations actuelles.
L'équipe de la NUS a testé deux interfaces d'agents : un agent « usage ordinateur » qui génère des commandes clavier et souris, et un agent multimodal général utilisant l'analyse sémantique. Lors d'une évaluation à grande échelle impliquant 18 combinaisons modèle-interface, les résultats ont montré que les agents IA actuels sont encore loin d'atteindre les capacités de jeu au niveau humain. L'étude met en lumière des défis tels que la latence des interactions en temps réel et la sensibilité à la mémoire contextuelle. L'article de recherche et le code du projet sont disponibles sur Hugging Face et GitHub.
L'équipe de la NUS dévoile GameWorld, un benchmark pour l'évaluation de l'IA dans les jeux sur navigateur
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
