O Grok 4.20 Beta alcançou uma taxa de precisão de 97% na avaliação τ²-Bench, garantindo a segunda posição. O τ²-Bench, uma extensão do framework original τ-bench da Sierra, é conhecido por seus rigorosos padrões de teste. Este benchmark avalia as capacidades da IA em responder perguntas e completar tarefas de navegação, destacando o desempenho avançado do Grok 4.20 Beta nessas áreas.