Grok 4.20 Beta đã đạt tỷ lệ chính xác 97% trong đánh giá τ²-Bench, giành vị trí thứ hai. τ²-Bench, một phần mở rộng của khung τ-bench gốc từ Sierra, nổi tiếng với các tiêu chuẩn kiểm tra nghiêm ngặt. Chuẩn đánh giá này đánh giá khả năng của AI trong việc trả lời câu hỏi và hoàn thành các nhiệm vụ điều hướng, làm nổi bật hiệu suất tiên tiến của Grok 4.20 Beta trong các lĩnh vực này.