Googleリサーチ、TurboQuantで高速モデル推論を実現

Google Researchは、TurboQuantという新しい量子化アルゴリズムを発表しました。これは大規模言語モデルのKVキャッシュを3ビットに圧縮し、精度を損なうことなくメモリ使用量を少なくとも6倍削減します。この進歩により、従来の32ビットベースラインと比較して、NVIDIA H100 GPUの4ビットモードで最大8倍高速なアテンション計算が可能になります。TurboQuantはLongBenchやZeroSCROLLSなどのベンチマークで検証され、GemmaやMistralといったモデルで最適な性能を示しました。このアルゴリズムは、メモリオーバーヘッドを排除するために極座標変換を用いるPolarQuantと、わずか1ビットで残差誤差を補正するQJLという2つのサブアルゴリズムを特徴としています。Amir ZandiehとVahab Mirrokniが主導し、KAISTおよびNYUと協力して行われたこの研究は、ICLR 2026で発表される予定です。Googleは、GeminiのようなモデルにおけるKVキャッシュのボトルネックを緩和する可能性を強調しています。