Google Research hat TurboQuant vorgestellt, einen neuartigen Quantisierungsalgorithmus, der den KV-Cache großer Sprachmodelle auf 3 Bits komprimiert und dadurch den Speicherverbrauch um mindestens das 6-fache reduziert, ohne die Genauigkeit zu beeinträchtigen. Dieser Fortschritt ermöglicht eine bis zu 8-mal schnellere Berechnung der Aufmerksamkeit auf NVIDIA H100 GPUs im 4-Bit-Modus im Vergleich zum herkömmlichen 32-Bit-Standard. TurboQuant wurde anhand von Benchmarks wie LongBench und ZeroSCROLLS validiert und zeigte optimale Leistung bei Modellen wie Gemma und Mistral.
Der Algorithmus umfasst zwei Unteralgorithmen: PolarQuant, das eine Transformation in Polarkoordinaten nutzt, um den Speicheraufwand zu eliminieren, und QJL, das Restfehler mit nur 1 Bit korrigiert. Die Forschung, geleitet von Amir Zandieh und Vahab Mirrokni in Zusammenarbeit mit KAIST und NYU, wird auf der ICLR 2026 vorgestellt. Google hebt das Potenzial hervor, Engpässe im KV-Cache bei Modellen wie Gemini zu entschärfen.
Google Research stellt TurboQuant für effiziente Modellkompression vor
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
