Gemini 3 Flashは、PinchBenchベンチマークテストによると、OpenClawエージェントタスクで95.1%の成功率を達成し、最も優れたAIモデルとして浮上しました。Xプラットフォーム上でSlowMistのCISO 23padsによって強調された評価では、minimax-m2.1とkimi-k2.5がそれぞれ93.6%と93.4%の成功率で2位と3位にランクインしています。Claude Sonnet 4.5は92.7%で続き、GPT-4oは85.2%の成功率を記録しています。