Sakana AI, en colaboración con la Universidad de Tokio, ha lanzado DiffusionBlocks, un nuevo marco de entrenamiento diseñado para reducir el uso de memoria GPU en el entrenamiento de modelos grandes. Anunciado en ICLR 2026, DiffusionBlocks divide las redes neuronales en módulos, permitiendo el entrenamiento independiente de cada módulo. Este enfoque reduce significativamente el consumo de VRAM al permitir actualizaciones por bloques, disminuyendo el uso de memoria a una fracción B del requisito original.
El marco aborda el desafío de las demandas de VRAM en modelos profundos cargando solo un bloque a la vez para las actualizaciones, dejando los bloques no muestreados sin cargar. Los experimentos indican que este método no solo reduce las necesidades de VRAM, sino que también iguala o supera el rendimiento del entrenamiento tradicional en tareas como Transformers visuales y generación de texto. Además, DiffusionBlocks ofrece beneficios de optimización para modelos recurrentes al simular un proceso dinámico de convergencia, reduciendo los costos computacionales durante el entrenamiento.
Sakana AI presenta DiffusionBlocks para reducir el uso de memoria GPU
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
