Grok 4.20 Beta đã đạt tỷ lệ chính xác 97% trong đánh giá τ²-Bench, giành vị trí thứ hai. τ²-Bench, một phần mở rộng của khung τ-bench gốc từ Sierra, nổi tiếng với các tiêu chuẩn kiểm tra nghiêm ngặt. Chuẩn đánh giá này đánh giá khả năng của AI trong việc trả lời câu hỏi và hoàn thành các nhiệm vụ điều hướng, làm nổi bật hiệu suất tiên tiến của Grok 4.20 Beta trong các lĩnh vực này.
Grok 4.20 Beta đạt 97% trên τ²-Bench, giành vị trí thứ hai
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
