Đại học Quốc gia Singapore (NUS) đã ra mắt GameWorld, một chuẩn đánh giá mới nhằm chuẩn hóa việc đánh giá các mô hình ngôn ngữ lớn đa phương thức (MLLMs) như các tác nhân tổng quát trong trò chơi điện tử. GameWorld bao gồm 34 trò chơi trên trình duyệt và 170 nhiệm vụ, mỗi nhiệm vụ đều có các chỉ số có thể kiểm chứng để đánh giá kết quả một cách khách quan. Sáng kiến này nhằm giải quyết những hạn chế về giao diện đầu vào không đồng nhất và việc xác minh thủ công trong các đánh giá hiện tại. Nhóm NUS đã thử nghiệm hai giao diện tác nhân: một tác nhân "sử dụng máy tính" xuất ra các lệnh bàn phím và chuột, và một tác nhân đa phương thức tổng quát sử dụng phân tích ngữ nghĩa. Trong một đánh giá quy mô lớn với 18 kết hợp mô hình-giao diện, kết quả cho thấy các tác nhân AI hiện tại vẫn chưa đạt được khả năng chơi game ở mức độ con người. Nghiên cứu nhấn mạnh các thách thức như độ trễ tương tác thời gian thực và độ nhạy với bộ nhớ ngữ cảnh. Bài báo nghiên cứu và mã dự án có sẵn trên Hugging Face và GitHub.