Claude Opus 4.6 führt OpenClaw KI-Agenten-Benchmark mit 93,3 % Erfolgsquote an

Der neueste OpenClaw AI Agent Benchmark, entwickelt von MyToken, bewertet Claude Opus 4.6 als führendes Modell mit einer Erfolgsquote von 93,3 % bei realen Agentenaufgaben. Der Benchmark bewertet KI-Coding-Agenten basierend auf ihrer Fähigkeit, Aufgaben genau zu erfüllen, wobei die Erfolgsquote als Hauptmetrik verwendet wird. Das Trinity-Modell von Arcee AI folgt dicht mit einer stabilen durchschnittlichen Erfolgsquote von 91,9 %. Der Benchmark umfasst 23 Aufgabenbereiche, darunter Dateioperationen, Inhaltserstellung und Systemwerkzeugaufrufe, die typische Anwendungsfälle von Entwicklern widerspiegeln. Weitere bemerkenswerte Modelle unter den Top Ten sind OpenAIs GPT-5.4 und mehrere aus der Qwen-Serie, die ihr Potenzial für Kosteneffizienz hervorheben. Der Benchmark ist vollständig offen und reproduzierbar, was eine unabhängige Überprüfung und Tests ermöglicht.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.