Google Research ha presentado TurboQuant, un novedoso algoritmo de cuantización que comprime la caché KV de grandes modelos de lenguaje a 3 bits, reduciendo significativamente el uso de memoria al menos 6 veces sin comprometer la precisión. Este avance permite una computación de atención hasta 8 veces más rápida en GPUs NVIDIA H100 en modo de 4 bits en comparación con la línea base tradicional de 32 bits. TurboQuant fue validado en benchmarks como LongBench y ZeroSCROLLS, demostrando un rendimiento óptimo con modelos como Gemma y Mistral. El algoritmo cuenta con dos subalgoritmos: PolarQuant, que utiliza la transformación de coordenadas polares para eliminar la sobrecarga de memoria, y QJL, que corrige errores residuales con solo 1 bit. La investigación, liderada por Amir Zandieh y Vahab Mirrokni, en colaboración con KAIST y NYU, será presentada en ICLR 2026. Google destaca su potencial para aliviar los cuellos de botella de la caché KV en modelos como Gemini.