DiffusionBlocks от Sakana AI снижает использование памяти GPU

Sakana AI в сотрудничестве с Токийским университетом представила DiffusionBlocks — новую систему обучения, направленную на снижение использования памяти GPU при обучении больших моделей. Объявленная на конференции ICLR 2026, DiffusionBlocks разделяет нейронные сети на модули, позволяя независимо обучать каждый из них. Такой подход значительно сокращает потребление видеопамяти (VRAM) за счёт обновлений по блокам, уменьшая использование памяти до одной B-й части от первоначальной потребности. Данная система решает проблему высоких требований к VRAM в глубоких моделях, загружая для обновления только один блок за раз, при этом неиспользуемые блоки остаются выгруженными. Эксперименты показывают, что этот метод не только снижает потребность в VRAM, но и соответствует или превосходит традиционные методы обучения в задачах, таких как визуальные трансформеры и генерация текста. Кроме того, DiffusionBlocks предоставляет преимущества оптимизации для рекуррентных моделей, имитируя динамический процесс сходимости и снижая вычислительные затраты во время обучения.

Вам также может понравиться