DiffusionBlocks de Sakana AI reduce uso de memoria GPU

Sakana AI, en colaboración con la Universidad de Tokio, ha lanzado DiffusionBlocks, un nuevo marco de entrenamiento diseñado para reducir el uso de memoria GPU en el entrenamiento de modelos grandes. Anunciado en ICLR 2026, DiffusionBlocks divide las redes neuronales en módulos, permitiendo el entrenamiento independiente de cada módulo. Este enfoque reduce significativamente el consumo de VRAM al permitir actualizaciones por bloques, disminuyendo el uso de memoria a una fracción B del requisito original. El marco aborda el desafío de las demandas de VRAM en modelos profundos cargando solo un bloque a la vez para las actualizaciones, dejando los bloques no muestreados sin cargar. Los experimentos indican que este método no solo reduce las necesidades de VRAM, sino que también iguala o supera el rendimiento del entrenamiento tradicional en tareas como Transformers visuales y generación de texto. Además, DiffusionBlocks ofrece beneficios de optimización para modelos recurrentes al simular un proceso dinámico de convergencia, reduciendo los costos computacionales durante el entrenamiento.

También te podría gustar