Google Research presenta TurboQuant para una compresión eficiente de modelos

Google Research ha presentado TurboQuant, un novedoso algoritmo de cuantización que comprime la caché KV de grandes modelos de lenguaje a 3 bits, reduciendo significativamente el uso de memoria al menos 6 veces sin comprometer la precisión. Este avance permite una computación de atención hasta 8 veces más rápida en GPUs NVIDIA H100 en modo de 4 bits en comparación con la línea base tradicional de 32 bits. TurboQuant fue validado en benchmarks como LongBench y ZeroSCROLLS, demostrando un rendimiento óptimo con modelos como Gemma y Mistral. El algoritmo cuenta con dos subalgoritmos: PolarQuant, que utiliza la transformación de coordenadas polares para eliminar la sobrecarga de memoria, y QJL, que corrige errores residuales con solo 1 bit. La investigación, liderada por Amir Zandieh y Vahab Mirrokni, en colaboración con KAIST y NYU, será presentada en ICLR 2026. Google destaca su potencial para aliviar los cuellos de botella de la caché KV en modelos como Gemini.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.