A Universidade Nacional de Singapura (NUS) lançou o GameWorld, um novo padrão destinado a padronizar a avaliação de modelos multimodais de linguagem ampla (MLLMs) como agentes gerais em videogames. O GameWorld abrange 34 jogos para navegador e 170 tarefas, cada uma com métricas verificáveis para avaliar objetivamente os resultados. Esta iniciativa aborda as limitações das interfaces de entrada inconsistentes e da verificação manual nas avaliações atuais.
A equipe da NUS testou duas interfaces de agentes: um agente de "uso de computador" que gera comandos de teclado e mouse, e um agente multimodal geral que utiliza análise semântica. Em uma avaliação em grande escala envolvendo 18 combinações de modelo-interface, os resultados indicaram que os agentes de IA atuais ainda estão aquém das habilidades humanas em jogos. O estudo destaca desafios como a latência na interação em tempo real e a sensibilidade à memória contextual. O artigo de pesquisa e o código do projeto estão disponíveis no Hugging Face e no GitHub.
Equipe da NUS Lança o Benchmark GameWorld para Avaliação de IA em Jogos de Navegador
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
