Google Research đã giới thiệu TurboQuant, một thuật toán lượng tử hóa mới nén bộ nhớ đệm KV của các mô hình ngôn ngữ lớn xuống còn 3 bit, giảm đáng kể việc sử dụng bộ nhớ ít nhất 6 lần mà không làm giảm độ chính xác. Tiến bộ này cho phép tính toán chú ý nhanh hơn tới 8 lần trên GPU NVIDIA H100 ở chế độ 4 bit so với chuẩn 32 bit truyền thống. TurboQuant đã được xác thực trên các bộ chuẩn như LongBench và ZeroSCROLLS, thể hiện hiệu suất tối ưu với các mô hình như Gemma và Mistral.
Thuật toán bao gồm hai thuật toán phụ: PolarQuant, sử dụng biến đổi tọa độ cực để loại bỏ chi phí bộ nhớ, và QJL, sửa lỗi dư với chỉ 1 bit. Nghiên cứu do Amir Zandieh và Vahab Mirrokni dẫn đầu, phối hợp với KAIST và NYU, sẽ được trình bày tại ICLR 2026. Google nhấn mạnh tiềm năng của nó trong việc giảm nghẽn bộ nhớ đệm KV ở các mô hình như Gemini.
Google Research Ra Mắt TurboQuant Cho Nén Mô Hình Hiệu Quả
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
