Google Research a présenté TurboQuant, un nouvel algorithme de quantification qui compresse le cache KV des grands modèles de langage à 3 bits, réduisant ainsi significativement l'utilisation de la mémoire d'au moins 6 fois sans compromettre la précision. Cette avancée permet un calcul de l'attention jusqu'à 8 fois plus rapide sur les GPU NVIDIA H100 en mode 4 bits par rapport à la référence traditionnelle en 32 bits. TurboQuant a été validé sur des benchmarks tels que LongBench et ZeroSCROLLS, démontrant des performances optimales avec des modèles comme Gemma et Mistral.
L'algorithme comprend deux sous-algorithmes : PolarQuant, qui utilise une transformation en coordonnées polaires pour éliminer la surcharge mémoire, et QJL, qui corrige les erreurs résiduelles avec seulement 1 bit. La recherche, dirigée par Amir Zandieh et Vahab Mirrokni, en collaboration avec KAIST et NYU, sera présentée à l'ICLR 2026. Google souligne son potentiel pour alléger les goulets d'étranglement du cache KV dans des modèles comme Gemini.
Google Research dévoile TurboQuant pour une compression efficace des modèles
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
