클로드 오퍼스 4.6, 93.3% 성공률로 OpenClaw AI 에이전트 벤치마크 1위 달성

MyToken이 개발한 최신 OpenClaw AI 에이전트 벤치마크는 Claude Opus 4.6을 실제 에이전트 작업에서 93.3%의 성공률로 선두 모델로 평가했습니다. 이 벤치마크는 성공률을 주요 지표로 사용하여 AI 코딩 에이전트가 작업을 정확하게 완료하는 능력을 평가합니다. Arcee AI의 Trinity 모델은 안정적인 평균 성공률 91.9%로 그 뒤를 잇고 있습니다. 이 벤치마크는 파일 작업, 콘텐츠 생성, 시스템 도구 호출 등 23개의 작업 범주를 포함하며, 이는 일반적인 개발자 사용 사례를 반영합니다. 상위 10위 내에 포함된 다른 주목할 만한 모델로는 OpenAI의 GPT-5.4와 Qwen 시리즈의 여러 모델이 있으며, 이들은 비용 효율성 측면에서 잠재력을 보여줍니다. 이 벤치마크는 완전히 공개되어 재현 가능하며, 독립적인 검증과 테스트가 가능합니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.