Grok 4.20 Beta a atteint un taux de précision de 97 % lors de l'évaluation τ²-Bench, se classant à la deuxième position. Le τ²-Bench, une extension du cadre original τ-bench de Sierra, est réputé pour ses normes de test rigoureuses. Ce benchmark évalue les capacités de l'IA à répondre aux questions et à accomplir des tâches de navigation, mettant en lumière la performance avancée de Grok 4.20 Beta dans ces domaines.