Gemini 3 Flash s'est imposé comme le modèle d'IA leader dans la tâche d'agent OpenClaw, atteignant un taux de réussite de 95,1 % selon le test de référence PinchBench. L'évaluation, mise en avant par SlowMist CISO 23pads sur la plateforme X, place minimax-m2.1 et kimi-k2.5 en deuxième et troisième positions avec des taux de réussite respectifs de 93,6 % et 93,4 %. Claude Sonnet 4.5 suit avec 92,7 %, tandis que GPT-4o enregistre un taux de réussite de 85,2 %.