Google Research startet TurboQuant für schnellere Modellinferenz

Google Research hat TurboQuant vorgestellt, einen neuartigen Quantisierungsalgorithmus, der den KV-Cache großer Sprachmodelle auf 3 Bits komprimiert und dadurch den Speicherverbrauch um mindestens das 6-fache reduziert, ohne die Genauigkeit zu beeinträchtigen. Dieser Fortschritt ermöglicht eine bis zu 8-mal schnellere Berechnung der Aufmerksamkeit auf NVIDIA H100 GPUs im 4-Bit-Modus im Vergleich zum herkömmlichen 32-Bit-Standard. TurboQuant wurde anhand von Benchmarks wie LongBench und ZeroSCROLLS validiert und zeigte optimale Leistung bei Modellen wie Gemma und Mistral. Der Algorithmus umfasst zwei Unteralgorithmen: PolarQuant, das eine Transformation in Polarkoordinaten nutzt, um den Speicheraufwand zu eliminieren, und QJL, das Restfehler mit nur 1 Bit korrigiert. Die Forschung, geleitet von Amir Zandieh und Vahab Mirrokni in Zusammenarbeit mit KAIST und NYU, wird auf der ICLR 2026 vorgestellt. Google hebt das Potenzial hervor, Engpässe im KV-Cache bei Modellen wie Gemini zu entschärfen.