Google Research ra mắt TurboQuant tăng tốc suy luận mô hình

Google Research đã giới thiệu TurboQuant, một thuật toán lượng tử hóa mới nén bộ nhớ đệm KV của các mô hình ngôn ngữ lớn xuống còn 3 bit, giảm đáng kể việc sử dụng bộ nhớ ít nhất 6 lần mà không làm giảm độ chính xác. Tiến bộ này cho phép tính toán chú ý nhanh hơn tới 8 lần trên GPU NVIDIA H100 ở chế độ 4 bit so với chuẩn 32 bit truyền thống. TurboQuant đã được xác thực trên các bộ chuẩn như LongBench và ZeroSCROLLS, thể hiện hiệu suất tối ưu với các mô hình như Gemma và Mistral. Thuật toán bao gồm hai thuật toán phụ: PolarQuant, sử dụng biến đổi tọa độ cực để loại bỏ chi phí bộ nhớ, và QJL, sửa lỗi dư với chỉ 1 bit. Nghiên cứu do Amir Zandieh và Vahab Mirrokni dẫn đầu, phối hợp với KAIST và NYU, sẽ được trình bày tại ICLR 2026. Google nhấn mạnh tiềm năng của nó trong việc giảm nghẽn bộ nhớ đệm KV ở các mô hình như Gemini.