Die National University of Singapore (NUS) hat GameWorld gestartet, einen neuen Benchmark, der darauf abzielt, die Bewertung multimodaler großer Sprachmodelle (MLLMs) als allgemeine Agenten in Videospielen zu standardisieren. GameWorld umfasst 34 Browserspiele und 170 Aufgaben, von denen jede über überprüfbare Metriken verfügt, um die Ergebnisse objektiv zu bewerten. Diese Initiative adressiert die Einschränkungen inkonsistenter Eingabeschnittstellen und manueller Überprüfungen in aktuellen Bewertungen.
Das NUS-Team testete zwei Agentenschnittstellen: einen "Computer-Nutzungs"-Agenten, der Tastatur- und Mausbefehle ausgibt, und einen allgemeinen multimodalen Agenten, der semantische Analyse verwendet. In einer groß angelegten Bewertung mit 18 Modell-Schnittstellen-Kombinationen zeigten die Ergebnisse, dass aktuelle KI-Agenten noch nicht die spielerischen Fähigkeiten auf menschlichem Niveau erreichen. Die Studie hebt Herausforderungen wie Latenz bei der Echtzeitinteraktion und Sensitivität gegenüber kontextuellem Gedächtnis hervor. Das Forschungspapier und der Projektcode sind auf Hugging Face und GitHub verfügbar.
NUS-Team stellt GameWorld-Benchmark zur KI-Bewertung in Browserspielen vor
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
