Sakana AI DiffusionBlocks GPU Bellek Kullanımını Azaltır

Sakana AI, Tokyo Üniversitesi ile iş birliği içinde, büyük model eğitiminde GPU bellek kullanımını azaltmayı hedefleyen yeni bir eğitim çerçevesi olan DiffusionBlocks'u başlattı. ICLR 2026'da duyurulan DiffusionBlocks, sinir ağlarını modüllere ayırarak her modülün bağımsız olarak eğitilmesine olanak tanıyor. Bu yaklaşım, blok bazlı güncellemeleri mümkün kılarak VRAM tüketimini önemli ölçüde azaltıyor ve bellek kullanımını orijinal gereksinimin B'de birine indiriyor. Çerçeve, derin modellerdeki VRAM taleplerini, güncellemeler için yalnızca bir bloğu aynı anda yükleyerek ve örneklenmeyen blokları yüklemeden bırakarak ele alıyor. Deneyler, bu yöntemin sadece VRAM ihtiyacını azaltmakla kalmayıp, görsel Transformerlar ve metin üretimi gibi görevlerde geleneksel eğitim performansını yakaladığını veya aştığını gösteriyor. Ayrıca, DiffusionBlocks, dinamik bir yakınsama sürecini simüle ederek tekrarlayan modeller için optimizasyon avantajları sunuyor ve eğitim sırasında hesaplama maliyetlerini düşürüyor.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler