Grok 4.20 Betaは、τ²-Bench評価で97%の精度を達成し、2位を獲得しました。τ²-Benchは、Sierraのオリジナルのτ-benchフレームワークを拡張したもので、その厳格なテスト基準で知られています。このベンチマークは、質問への回答能力やナビゲーションタスクの完遂能力を評価し、Grok 4.20 Betaのこれらの分野での高度な性能を際立たせています。