O Google Research apresentou o TurboQuant, um novo algoritmo de quantização que comprime o cache KV de grandes modelos de linguagem para 3 bits, reduzindo significativamente o uso de memória em pelo menos 6 vezes sem comprometer a precisão. Esse avanço permite uma computação de atenção até 8 vezes mais rápida em GPUs NVIDIA H100 no modo de 4 bits, em comparação com a linha de base tradicional de 32 bits. O TurboQuant foi validado em benchmarks como LongBench e ZeroSCROLLS, demonstrando desempenho ideal com modelos como Gemma e Mistral.
O algoritmo possui dois subalgoritmos: PolarQuant, que utiliza a transformação de coordenadas polares para eliminar a sobrecarga de memória, e QJL, que corrige erros residuais com apenas 1 bit. A pesquisa, liderada por Amir Zandieh e Vahab Mirrokni, em colaboração com KAIST e NYU, será apresentada na ICLR 2026. O Google destaca seu potencial para aliviar gargalos no cache KV em modelos como o Gemini.
Google Research Lança TurboQuant para Compressão Eficiente de Modelos
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
