싱가포르 국립대학교(NUS)는 비디오 게임에서 일반 에이전트로서 다중 모달 대형 언어 모델(MLLM)의 평가를 표준화하기 위한 새로운 벤치마크인 GameWorld를 출시했습니다. GameWorld는 34개의 브라우저 게임과 170개의 과제를 포함하며, 각 과제는 결과를 객관적으로 평가할 수 있는 검증 가능한 지표를 갖추고 있습니다. 이 이니셔티브는 현재 평가에서 일관되지 않은 입력 인터페이스와 수동 검증의 한계를 해결합니다. NUS 팀은 두 가지 에이전트 인터페이스를 테스트했습니다. 하나는 키보드와 마우스 명령을 출력하는 "컴퓨터 사용" 에이전트이고, 다른 하나는 의미 분석을 사용하는 일반 다중 모달 에이전트입니다. 18개의 모델-인터페이스 조합을 포함한 대규모 평가에서 결과는 현재 AI 에이전트가 여전히 인간 수준의 게임 능력에 미치지 못함을 보여주었습니다. 연구는 실시간 상호작용 지연과 맥락 기억에 대한 민감성과 같은 도전 과제를 강조합니다. 연구 논문과 프로젝트 코드는 Hugging Face와 GitHub에서 확인할 수 있습니다.