DiffusionBlocks da Sakana AI Reduz Uso de Memória GPU

A Sakana AI, em colaboração com a Universidade de Tóquio, lançou o DiffusionBlocks, uma nova estrutura de treinamento destinada a reduzir o uso de memória GPU no treinamento de grandes modelos. Anunciado na ICLR 2026, o DiffusionBlocks divide redes neurais em módulos, permitindo o treinamento independente de cada módulo. Essa abordagem reduz significativamente o consumo de VRAM ao possibilitar atualizações por blocos, diminuindo o uso de memória para uma fração B do requisito original. A estrutura aborda o desafio das demandas de VRAM em modelos profundos carregando apenas um bloco por vez para atualizações, deixando os blocos não amostrados descarregados. Experimentos indicam que esse método não apenas reduz as necessidades de VRAM, mas também iguala ou supera o desempenho do treinamento tradicional em tarefas como Transformers visuais e geração de texto. Além disso, o DiffusionBlocks oferece benefícios de otimização para modelos recorrentes ao simular um processo dinâmico de convergência, reduzindo os custos computacionais durante o treinamento.

Você também pode gostar