Google Research lance TurboQuant pour inférence plus rapide

Google Research a présenté TurboQuant, un nouvel algorithme de quantification qui compresse le cache KV des grands modèles de langage à 3 bits, réduisant ainsi significativement l'utilisation de la mémoire d'au moins 6 fois sans compromettre la précision. Cette avancée permet un calcul de l'attention jusqu'à 8 fois plus rapide sur les GPU NVIDIA H100 en mode 4 bits par rapport à la référence traditionnelle en 32 bits. TurboQuant a été validé sur des benchmarks tels que LongBench et ZeroSCROLLS, démontrant des performances optimales avec des modèles comme Gemma et Mistral. L'algorithme comprend deux sous-algorithmes : PolarQuant, qui utilise une transformation en coordonnées polaires pour éliminer la surcharge mémoire, et QJL, qui corrige les erreurs résiduelles avec seulement 1 bit. La recherche, dirigée par Amir Zandieh et Vahab Mirrokni, en collaboration avec KAIST et NYU, sera présentée à l'ICLR 2026. Google souligne son potentiel pour alléger les goulets d'étranglement du cache KV dans des modèles comme Gemini.