Национальный университет Сингапура (NUS) запустил GameWorld — новый эталон, направленный на стандартизацию оценки мультимодальных больших языковых моделей (MLLM) в качестве универсальных агентов в видеоиграх. GameWorld включает 34 браузерные игры и 170 заданий, каждое из которых имеет проверяемые метрики для объективной оценки результатов. Эта инициатива решает проблемы, связанные с несогласованными интерфейсами ввода и ручной проверкой в текущих оценках. Команда NUS протестировала два интерфейса агентов: агента «использующего компьютер», который выводит команды клавиатуры и мыши, и универсального мультимодального агента с использованием семантического парсинга. В крупномасштабной оценке, включающей 18 комбинаций моделей и интерфейсов, результаты показали, что современные ИИ-агенты всё ещё уступают человеческим способностям в играх. Исследование выделяет такие проблемы, как задержка взаимодействия в реальном времени и чувствительность к контекстной памяти. Научная статья и код проекта доступны на Hugging Face и GitHub.