Singapur Ulusal Üniversitesi (NUS), video oyunlarında genel ajanlar olarak multimodal büyük dil modellerinin (MLLM'ler) değerlendirilmesini standartlaştırmayı amaçlayan yeni bir kıyaslama aracı olan GameWorld'u başlattı. GameWorld, her biri sonuçları nesnel olarak değerlendirmek için doğrulanabilir metriklere sahip 34 tarayıcı oyunu ve 170 görevi kapsıyor. Bu girişim, mevcut değerlendirmelerdeki tutarsız giriş arayüzleri ve manuel doğrulama sınırlamalarını ele alıyor. NUS ekibi, iki ajan arayüzünü test etti: klavye ve fare komutları üreten "bilgisayar kullanımı" ajanı ve anlamsal çözümleme kullanan genel multimodal ajan. 18 model-arayüz kombinasyonunu içeren geniş çaplı bir değerlendirmede, sonuçlar mevcut yapay zeka ajanlarının hâlâ insan seviyesindeki oyun yeteneklerinin gerisinde olduğunu gösterdi. Çalışma, gerçek zamanlı etkileşim gecikmesi ve bağlamsal hafızaya duyarlılık gibi zorlukları vurguluyor. Araştırma makalesi ve proje kodu Hugging Face ve GitHub'da mevcuttur.