A Universidade Nacional de Singapura (NUS) lançou o GameWorld, um novo padrão destinado a padronizar a avaliação de modelos multimodais de linguagem ampla (MLLMs) como agentes gerais em videogames. O GameWorld abrange 34 jogos para navegador e 170 tarefas, cada uma com métricas verificáveis para avaliar objetivamente os resultados. Esta iniciativa aborda as limitações das interfaces de entrada inconsistentes e da verificação manual nas avaliações atuais. A equipe da NUS testou duas interfaces de agentes: um agente de "uso de computador" que gera comandos de teclado e mouse, e um agente multimodal geral que utiliza análise semântica. Em uma avaliação em grande escala envolvendo 18 combinações de modelo-interface, os resultados indicaram que os agentes de IA atuais ainda estão aquém das habilidades humanas em jogos. O estudo destaca desafios como a latência na interação em tempo real e a sensibilidade à memória contextual. O artigo de pesquisa e o código do projeto estão disponíveis no Hugging Face e no GitHub.