Национальный университет Сингапура (NUS) запустил GameWorld — новый эталон, направленный на стандартизацию оценки мультимодальных больших языковых моделей (MLLM) в качестве универсальных агентов в видеоиграх. GameWorld включает 34 браузерные игры и 170 заданий, каждое из которых имеет проверяемые метрики для объективной оценки результатов. Эта инициатива решает проблемы, связанные с несогласованными интерфейсами ввода и ручной проверкой в текущих оценках.
Команда NUS протестировала два интерфейса агентов: агента «использующего компьютер», который выводит команды клавиатуры и мыши, и универсального мультимодального агента с использованием семантического парсинга. В крупномасштабной оценке, включающей 18 комбинаций моделей и интерфейсов, результаты показали, что современные ИИ-агенты всё ещё уступают человеческим способностям в играх. Исследование выделяет такие проблемы, как задержка взаимодействия в реальном времени и чувствительность к контекстной памяти. Научная статья и код проекта доступны на Hugging Face и GitHub.
Команда NUS представила эталон GameWorld для оценки ИИ в браузерных играх
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
