Google Research, büyük dil modellerinin KV önbelleğini 3 bit'e sıkıştıran ve bellek kullanımını en az 6 kat azaltan yeni bir kuantizasyon algoritması olan TurboQuant'u tanıttı; bu, doğruluktan ödün vermeden gerçekleştirildi. Bu gelişme, geleneksel 32 bit temel modele kıyasla NVIDIA H100 GPU'larda 4 bit modunda dikkat hesaplamasını 8 kata kadar hızlandırıyor. TurboQuant, LongBench ve ZeroSCROLLS gibi kıyaslamalarda doğrulandı ve Gemma ve Mistral gibi modellerle optimal performans gösterdi. Algoritma, bellek yükünü ortadan kaldırmak için kutupsal koordinat dönüşümü kullanan PolarQuant ve sadece 1 bit ile kalıntı hatalarını düzelten QJL olmak üzere iki alt algoritma içeriyor. Amir Zandieh ve Vahab Mirrokni liderliğindeki ve KAIST ile NYU iş birliğiyle yürütülen araştırma, ICLR 2026'da sunulacak. Google, bunun Gemini gibi modellerde KV önbellek darboğazlarını hafifletme potansiyelini vurguluyor.