DiffusionBlocks de Sakana AI réduit la mémoire GPU

Sakana AI, en collaboration avec l'Université de Tokyo, a lancé DiffusionBlocks, un nouveau cadre de formation visant à réduire l'utilisation de la mémoire GPU lors de l'entraînement de grands modèles. Annoncé lors de l'ICLR 2026, DiffusionBlocks divise les réseaux neuronaux en modules, permettant l'entraînement indépendant de chaque module. Cette approche réduit considérablement la consommation de VRAM en permettant des mises à jour par blocs, réduisant l'utilisation de la mémoire à un B-ième de la demande initiale. Le cadre répond au défi des exigences en VRAM dans les modèles profonds en ne chargeant qu'un seul bloc à la fois pour les mises à jour, laissant les blocs non échantillonnés non chargés. Les expériences indiquent que cette méthode non seulement diminue les besoins en VRAM, mais égalise ou dépasse également les performances de l'entraînement traditionnel dans des tâches telles que les Transformers visuels et la génération de texte. De plus, DiffusionBlocks offre des avantages d'optimisation pour les modèles récurrents en simulant un processus de convergence dynamique, réduisant les coûts de calcul pendant l'entraînement.

Vous pourriez aussi aimer