Google Research, büyük dil modellerinin KV önbelleğini 3 bit'e sıkıştıran ve bellek kullanımını en az 6 kat azaltan yeni bir kuantizasyon algoritması olan TurboQuant'u tanıttı; bu, doğruluktan ödün vermeden gerçekleştirildi. Bu gelişme, geleneksel 32 bit temel modele kıyasla NVIDIA H100 GPU'larda 4 bit modunda dikkat hesaplamasını 8 kata kadar hızlandırıyor. TurboQuant, LongBench ve ZeroSCROLLS gibi kıyaslamalarda doğrulandı ve Gemma ve Mistral gibi modellerle optimal performans gösterdi.
Algoritma, bellek yükünü ortadan kaldırmak için kutupsal koordinat dönüşümü kullanan PolarQuant ve sadece 1 bit ile kalıntı hatalarını düzelten QJL olmak üzere iki alt algoritma içeriyor. Amir Zandieh ve Vahab Mirrokni liderliğindeki ve KAIST ile NYU iş birliğiyle yürütülen araştırma, ICLR 2026'da sunulacak. Google, bunun Gemini gibi modellerde KV önbellek darboğazlarını hafifletme potansiyelini vurguluyor.
Google Research, Verimli Model Sıkıştırma için TurboQuant'u Tanıttı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
