Google Research представила TurboQuant — новый алгоритм квантизации, который сжимает KV-кэш больших языковых моделей до 3 бит, значительно сокращая использование памяти как минимум в 6 раз без потери точности. Это достижение позволяет выполнять вычисления внимания на GPU NVIDIA H100 в 4-битном режиме до 8 раз быстрее по сравнению с традиционной 32-битной базой. TurboQuant был проверен на таких бенчмарках, как LongBench и ZeroSCROLLS, демонстрируя оптимальную производительность с моделями, такими как Gemma и Mistral.
Алгоритм включает два подалгоритма: PolarQuant, который использует преобразование в полярные координаты для устранения накладных расходов памяти, и QJL, который исправляет остаточные ошибки всего одним битом. Исследование, возглавляемое Амиром Зандиэ и Вахабом Миррокни в сотрудничестве с KAIST и NYU, будет представлено на конференции ICLR 2026. Google подчеркивает его потенциал для устранения узких мест KV-кэша в моделях, таких как Gemini.
Google Research представляет TurboQuant для эффективного сжатия моделей
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
