Gemini 3 Flash는 PinchBench 벤치마크 테스트에서 95.1%의 성공률을 기록하며 OpenClaw 에이전트 작업에서 선도적인 AI 모델로 부상했습니다. X 플랫폼에서 SlowMist CISO 23pads가 강조한 평가 결과, minimax-m2.1과 kimi-k2.5가 각각 93.6%와 93.4%의 성공률로 2위와 3위를 차지했습니다. Claude Sonnet 4.5는 92.7%로 그 뒤를 잇고 있으며, GPT-4o는 85.2%의 성공률을 기록했습니다.