La Universidad Nacional de Singapur (NUS) ha lanzado GameWorld, un nuevo referente destinado a estandarizar la evaluación de modelos de lenguaje multimodales grandes (MLLMs) como agentes generales en videojuegos. GameWorld abarca 34 juegos de navegador y 170 tareas, cada una con métricas verificables para evaluar objetivamente los resultados. Esta iniciativa aborda las limitaciones de interfaces de entrada inconsistentes y la verificación manual en las evaluaciones actuales.
El equipo de NUS probó dos interfaces de agentes: un agente de "uso de computadora" que genera comandos de teclado y ratón, y un agente multimodal general que utiliza análisis semántico. En una evaluación a gran escala que involucró 18 combinaciones de modelo-interfaz, los resultados indicaron que los agentes de IA actuales aún no alcanzan las habilidades de juego a nivel humano. El estudio destaca desafíos como la latencia en la interacción en tiempo real y la sensibilidad a la memoria contextual. El artículo de investigación y el código del proyecto están disponibles en Hugging Face y GitHub.
Equipo de NUS presenta GameWorld Benchmark para la evaluación de IA en juegos de navegador
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
