Grok 4.20 베타는 τ²-Bench 평가에서 97%의 정확도를 기록하며 2위를 차지했습니다. τ²-Bench는 Sierra의 원래 τ-bench 프레임워크를 확장한 것으로, 엄격한 테스트 기준으로 잘 알려져 있습니다. 이 벤치마크는 AI의 질문 응답 능력과 내비게이션 작업 수행 능력을 평가하며, Grok 4.20 베타가 이 분야에서 뛰어난 성능을 보였음을 강조합니다.