A Sakana AI, em colaboração com a Universidade de Tóquio, lançou o DiffusionBlocks, uma nova estrutura de treinamento destinada a reduzir o uso de memória GPU no treinamento de grandes modelos. Anunciado na ICLR 2026, o DiffusionBlocks divide redes neurais em módulos, permitindo o treinamento independente de cada módulo. Essa abordagem reduz significativamente o consumo de VRAM ao possibilitar atualizações por blocos, diminuindo o uso de memória para uma fração B do requisito original.
A estrutura aborda o desafio das demandas de VRAM em modelos profundos carregando apenas um bloco por vez para atualizações, deixando os blocos não amostrados descarregados. Experimentos indicam que esse método não apenas reduz as necessidades de VRAM, mas também iguala ou supera o desempenho do treinamento tradicional em tarefas como Transformers visuais e geração de texto. Além disso, o DiffusionBlocks oferece benefícios de otimização para modelos recorrentes ao simular um processo dinâmico de convergência, reduzindo os custos computacionais durante o treinamento.
Sakana AI Lança DiffusionBlocks para Reduzir o Uso de Memória da GPU
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
