Sakana AI, en collaboration avec l'Université de Tokyo, a lancé DiffusionBlocks, un nouveau cadre de formation visant à réduire l'utilisation de la mémoire GPU lors de l'entraînement de grands modèles. Annoncé lors de l'ICLR 2026, DiffusionBlocks divise les réseaux neuronaux en modules, permettant l'entraînement indépendant de chaque module. Cette approche réduit considérablement la consommation de VRAM en permettant des mises à jour par blocs, réduisant l'utilisation de la mémoire à un B-ième de la demande initiale.
Le cadre répond au défi des exigences en VRAM dans les modèles profonds en ne chargeant qu'un seul bloc à la fois pour les mises à jour, laissant les blocs non échantillonnés non chargés. Les expériences indiquent que cette méthode non seulement diminue les besoins en VRAM, mais égalise ou dépasse également les performances de l'entraînement traditionnel dans des tâches telles que les Transformers visuels et la génération de texte. De plus, DiffusionBlocks offre des avantages d'optimisation pour les modèles récurrents en simulant un processus de convergence dynamique, réduisant les coûts de calcul pendant l'entraînement.
Sakana AI dévoile DiffusionBlocks pour réduire drastiquement l'utilisation de la mémoire GPU
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
