Sakana AI hat in Zusammenarbeit mit der Universität Tokio DiffusionBlocks vorgestellt, ein neues Trainingsframework, das darauf abzielt, den GPU-Speicherverbrauch beim Training großer Modelle zu reduzieren. Angekündigt auf der ICLR 2026, teilt DiffusionBlocks neuronale Netzwerke in Module auf, die unabhängig voneinander trainiert werden können. Dieser Ansatz reduziert den VRAM-Verbrauch erheblich, indem blockweise Updates ermöglicht werden, wodurch der Speicherbedarf auf ein B-tel des ursprünglichen Werts gesenkt wird.
Das Framework begegnet der Herausforderung des VRAM-Bedarfs bei tiefen Modellen, indem jeweils nur ein Block für Updates geladen wird, während nicht ausgewählte Blöcke nicht geladen bleiben. Experimente zeigen, dass diese Methode nicht nur den VRAM-Bedarf senkt, sondern auch die Leistung des traditionellen Trainings bei Aufgaben wie visuellen Transformern und Textgenerierung erreicht oder übertrifft. Darüber hinaus bietet DiffusionBlocks Optimierungsvorteile für rekurrente Modelle, indem es einen dynamischen Konvergenzprozess simuliert und so die Rechenkosten während des Trainings reduziert.
Sakana AI stellt DiffusionBlocks vor, um den GPU-Speicherverbrauch drastisch zu senken
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
