Grok 4.20 Beta достиг точности 97% в оценке τ²-Bench, заняв второе место. τ²-Bench, являющийся расширением оригинальной платформы τ-bench от Sierra, известен своими строгими стандартами тестирования. Этот бенчмарк оценивает способности ИИ в ответах на вопросы и выполнении навигационных задач, подчеркивая продвинутые показатели Grok 4.20 Beta в этих областях.