MyToken이 개발한 최신 OpenClaw AI 에이전트 벤치마크는 Claude Opus 4.6을 실제 에이전트 작업에서 93.3%의 성공률로 선두 모델로 평가했습니다. 이 벤치마크는 성공률을 주요 지표로 사용하여 AI 코딩 에이전트가 작업을 정확하게 완료하는 능력을 평가합니다. Arcee AI의 Trinity 모델은 안정적인 평균 성공률 91.9%로 그 뒤를 잇고 있습니다. 이 벤치마크는 파일 작업, 콘텐츠 생성, 시스템 도구 호출 등 23개의 작업 범주를 포함하며, 이는 일반적인 개발자 사용 사례를 반영합니다. 상위 10위 내에 포함된 다른 주목할 만한 모델로는 OpenAI의 GPT-5.4와 Qwen 시리즈의 여러 모델이 있으며, 이들은 비용 효율성 측면에서 잠재력을 보여줍니다. 이 벤치마크는 완전히 공개되어 재현 가능하며, 독립적인 검증과 테스트가 가능합니다.