Sakana AI DiffusionBlocks reduziert GPU-Speicherbedarf

Sakana AI hat in Zusammenarbeit mit der Universität Tokio DiffusionBlocks vorgestellt, ein neues Trainingsframework, das darauf abzielt, den GPU-Speicherverbrauch beim Training großer Modelle zu reduzieren. Angekündigt auf der ICLR 2026, teilt DiffusionBlocks neuronale Netzwerke in Module auf, die unabhängig voneinander trainiert werden können. Dieser Ansatz reduziert den VRAM-Verbrauch erheblich, indem blockweise Updates ermöglicht werden, wodurch der Speicherbedarf auf ein B-tel des ursprünglichen Werts gesenkt wird. Das Framework begegnet der Herausforderung des VRAM-Bedarfs bei tiefen Modellen, indem jeweils nur ein Block für Updates geladen wird, während nicht ausgewählte Blöcke nicht geladen bleiben. Experimente zeigen, dass diese Methode nicht nur den VRAM-Bedarf senkt, sondern auch die Leistung des traditionellen Trainings bei Aufgaben wie visuellen Transformern und Textgenerierung erreicht oder übertrifft. Darüber hinaus bietet DiffusionBlocks Optimierungsvorteile für rekurrente Modelle, indem es einen dynamischen Konvergenzprozess simuliert und so die Rechenkosten während des Trainings reduziert.

Das könnte Ihnen auch gefallen