シンガポール国立大学(NUS)は、マルチモーダル大規模言語モデル(MLLM)をビデオゲームの汎用エージェントとして評価するための標準化を目的とした新しいベンチマーク「GameWorld」を発表しました。GameWorldは34のブラウザゲームと170のタスクを含み、それぞれに結果を客観的に評価するための検証可能な指標が設定されています。この取り組みは、現在の評価における入力インターフェースの不一致や手動検証の限界に対処しています。
NUSのチームは、キーボードとマウスのコマンドを出力する「コンピュータ使用」エージェントと、セマンティックパースを用いた汎用マルチモーダルエージェントの2つのエージェントインターフェースをテストしました。18のモデルとインターフェースの組み合わせを含む大規模な評価では、現行のAIエージェントは依然として人間レベルのゲーム能力には及ばないことが示されました。研究は、リアルタイムのインタラクション遅延や文脈記憶への感度などの課題を浮き彫りにしています。研究論文とプロジェクトコードはHugging FaceとGitHubで公開されています。
NUSチーム、ブラウザゲームにおけるAI評価のためのGameWorldベンチマークを発表
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
