Google đã giới thiệu một kỹ thuật mới gọi là Dự đoán Đa Token (MTP) giúp tăng tốc độ suy luận AI lên đến ba lần mà không cần phần cứng mới. Tiến bộ này, thuộc dòng mô hình Gemma 4 của Google, sử dụng giải mã suy đoán để nâng cao hiệu quả xử lý. Bằng cách tích hợp một mô hình "dự đoán" nhỏ hơn và nhanh hơn với mô hình AI chính, MTP cho phép dự đoán nhiều token cùng lúc, giảm thời gian cần thiết để tạo ra các chuỗi.
Phương pháp này duy trì chất lượng của các mô hình lớn, như Gemma 4 với 31 tỷ tham số, bằng cách xác thực các dự đoán trong một lần truyền tiến duy nhất. Các bài kiểm tra chuẩn của Google cho thấy việc bật MTP trên chip Gemma 4 26B với GPU Nvidia RTX Pro 6000 gần như tăng gấp đôi tốc độ xử lý token, trong khi chip Apple Silicon tăng tốc 2,2 lần. Phát triển này hứa hẹn cải thiện khả năng phản hồi trong các ứng dụng yêu cầu độ trễ thấp, như trò chuyện và giao diện giọng nói thời gian thực, sử dụng phần cứng tiêu dùng hiện có.
Google Giới Thiệu Dự Đoán Đa Token Giúp Tăng Tốc Độ Suy Diễn AI Gấp 3 Lần
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
