MyToken tarafından geliştirilen en son OpenClaw AI Agent Benchmark, Claude Opus 4.6 modelini gerçek dünya ajan görevlerinde %93,3 başarı oranıyla lider model olarak sıralıyor. Benchmark, AI kodlama ajanlarını görevleri doğru tamamlama yeteneklerine göre değerlendiriyor ve başarı oranını birincil ölçüt olarak kullanıyor. Arcee AI'nın Trinity modeli ise %91,9'luk istikrarlı ortalama başarı oranıyla onu yakından takip ediyor.
Benchmark, dosya işlemleri, içerik oluşturma ve sistem araçlarını çağırma gibi tipik geliştirici kullanım senaryolarını yansıtan 23 görev kategorisini kapsıyor. İlk on arasında dikkat çeken diğer modeller arasında OpenAI'nin GPT-5.4 modeli ve Qwen serisinden birkaç model bulunuyor; bu da onların maliyet etkinliği potansiyelini vurguluyor. Benchmark tamamen açık ve tekrarlanabilir olup bağımsız doğrulama ve testlere olanak tanıyor.
Claude Opus 4.6, %93,3 Başarı Oranıyla OpenClaw AI Ajan Kıyaslamasında Zirvede
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
