Grok 4.20 Beta hat bei der τ²-Bench-Bewertung eine Genauigkeitsrate von 97 % erreicht und damit den zweiten Platz gesichert. Die τ²-Bench, eine Erweiterung des ursprünglichen τ-bench-Frameworks von Sierra, ist bekannt für ihre strengen Teststandards. Dieser Benchmark bewertet die Fähigkeiten von KI beim Beantworten von Fragen und beim Ausführen von Navigationsaufgaben und hebt die fortschrittliche Leistung von Grok 4.20 Beta in diesen Bereichen hervor.