シンガポール国立大学(NUS)は、マルチモーダル大規模言語モデル(MLLM)をビデオゲームの汎用エージェントとして評価するための標準化を目的とした新しいベンチマーク「GameWorld」を発表しました。GameWorldは34のブラウザゲームと170のタスクを含み、それぞれに結果を客観的に評価するための検証可能な指標が設定されています。この取り組みは、現在の評価における入力インターフェースの不一致や手動検証の限界に対処しています。 NUSのチームは、キーボードとマウスのコマンドを出力する「コンピュータ使用」エージェントと、セマンティックパースを用いた汎用マルチモーダルエージェントの2つのエージェントインターフェースをテストしました。18のモデルとインターフェースの組み合わせを含む大規模な評価では、現行のAIエージェントは依然として人間レベルのゲーム能力には及ばないことが示されました。研究は、リアルタイムのインタラクション遅延や文脈記憶への感度などの課題を浮き彫りにしています。研究論文とプロジェクトコードはHugging FaceとGitHubで公開されています。