Grok 4.20 Beta ha alcanzado una tasa de precisión del 97 % en la evaluación τ²-Bench, asegurando la segunda posición. El τ²-Bench, una extensión del marco original τ-bench de Sierra, es reconocido por sus rigurosos estándares de prueba. Este benchmark evalúa las capacidades de la IA para responder preguntas y completar tareas de navegación, destacando el rendimiento avanzado de Grok 4.20 Beta en estas áreas.