구글 리서치는 대형 언어 모델의 KV 캐시를 3비트로 압축하여 메모리 사용량을 최소 6배 이상 크게 줄이면서도 정확도를 유지하는 새로운 양자화 알고리즘인 TurboQuant를 발표했습니다. 이 기술 발전은 기존 32비트 기준 대비 NVIDIA H100 GPU에서 4비트 모드로 최대 8배 빠른 어텐션 계산을 가능하게 합니다. TurboQuant는 LongBench와 ZeroSCROLLS와 같은 벤치마크에서 검증되었으며, Gemma와 Mistral 같은 모델에서 최적의 성능을 입증했습니다.
이 알고리즘은 두 가지 하위 알고리즘을 특징으로 합니다. 극좌표 변환을 사용하여 메모리 오버헤드를 제거하는 PolarQuant와 단 1비트로 잔여 오류를 보정하는 QJL입니다. Amir Zandieh와 Vahab Mirrokni가 KAIST 및 NYU와 협력하여 이끈 연구는 ICLR 2026에서 발표될 예정입니다. 구글은 이 기술이 Gemini와 같은 모델에서 KV 캐시 병목 현상을 완화할 잠재력을 강조하고 있습니다.
구글 리서치, 효율적인 모델 압축을 위한 TurboQuant 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
