Google Research запускает TurboQuant для ускорения инференса

Google Research представила TurboQuant — новый алгоритм квантизации, который сжимает KV-кэш больших языковых моделей до 3 бит, значительно сокращая использование памяти как минимум в 6 раз без потери точности. Это достижение позволяет выполнять вычисления внимания на GPU NVIDIA H100 в 4-битном режиме до 8 раз быстрее по сравнению с традиционной 32-битной базой. TurboQuant был проверен на таких бенчмарках, как LongBench и ZeroSCROLLS, демонстрируя оптимальную производительность с моделями, такими как Gemma и Mistral. Алгоритм включает два подалгоритма: PolarQuant, который использует преобразование в полярные координаты для устранения накладных расходов памяти, и QJL, который исправляет остаточные ошибки всего одним битом. Исследование, возглавляемое Амиром Зандиэ и Вахабом Миррокни в сотрудничестве с KAIST и NYU, будет представлено на конференции ICLR 2026. Google подчеркивает его потенциал для устранения узких мест KV-кэша в моделях, таких как Gemini.