La Universidad Nacional de Singapur (NUS) ha lanzado GameWorld, un nuevo referente destinado a estandarizar la evaluación de modelos de lenguaje multimodales grandes (MLLMs) como agentes generales en videojuegos. GameWorld abarca 34 juegos de navegador y 170 tareas, cada una con métricas verificables para evaluar objetivamente los resultados. Esta iniciativa aborda las limitaciones de interfaces de entrada inconsistentes y la verificación manual en las evaluaciones actuales. El equipo de NUS probó dos interfaces de agentes: un agente de "uso de computadora" que genera comandos de teclado y ratón, y un agente multimodal general que utiliza análisis semántico. En una evaluación a gran escala que involucró 18 combinaciones de modelo-interfaz, los resultados indicaron que los agentes de IA actuales aún no alcanzan las habilidades de juego a nivel humano. El estudio destaca desafíos como la latencia en la interacción en tiempo real y la sensibilidad a la memoria contextual. El artículo de investigación y el código del proyecto están disponibles en Hugging Face y GitHub.