Google Researchは、TurboQuantという新しい量子化アルゴリズムを発表しました。これは大規模言語モデルのKVキャッシュを3ビットに圧縮し、精度を損なうことなくメモリ使用量を少なくとも6倍削減します。この進歩により、従来の32ビットベースラインと比較して、NVIDIA H100 GPUの4ビットモードで最大8倍高速なアテンション計算が可能になります。TurboQuantはLongBenchやZeroSCROLLSなどのベンチマークで検証され、GemmaやMistralといったモデルで最適な性能を示しました。
このアルゴリズムは、メモリオーバーヘッドを排除するために極座標変換を用いるPolarQuantと、わずか1ビットで残差誤差を補正するQJLという2つのサブアルゴリズムを特徴としています。Amir ZandiehとVahab Mirrokniが主導し、KAISTおよびNYUと協力して行われたこの研究は、ICLR 2026で発表される予定です。Googleは、GeminiのようなモデルにおけるKVキャッシュのボトルネックを緩和する可能性を強調しています。
Google Research、効率的なモデル圧縮のためのTurboQuantを発表
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
