구글 리서치는 대형 언어 모델의 KV 캐시를 3비트로 압축하여 메모리 사용량을 최소 6배 이상 크게 줄이면서도 정확도를 유지하는 새로운 양자화 알고리즘인 TurboQuant를 발표했습니다. 이 기술 발전은 기존 32비트 기준 대비 NVIDIA H100 GPU에서 4비트 모드로 최대 8배 빠른 어텐션 계산을 가능하게 합니다. TurboQuant는 LongBench와 ZeroSCROLLS와 같은 벤치마크에서 검증되었으며, Gemma와 Mistral 같은 모델에서 최적의 성능을 입증했습니다. 이 알고리즘은 두 가지 하위 알고리즘을 특징으로 합니다. 극좌표 변환을 사용하여 메모리 오버헤드를 제거하는 PolarQuant와 단 1비트로 잔여 오류를 보정하는 QJL입니다. Amir Zandieh와 Vahab Mirrokni가 KAIST 및 NYU와 협력하여 이끈 연구는 ICLR 2026에서 발표될 예정입니다. 구글은 이 기술이 Gemini와 같은 모델에서 KV 캐시 병목 현상을 완화할 잠재력을 강조하고 있습니다.