Forscher vom MIT, Princeton, Together AI und Meta haben CODA vorgestellt, eine neue Programmierabstraktion, die darauf abzielt, das Training von Transformer-Modellen zu optimieren. Die Studie mit dem Titel "CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs" konzentriert sich darauf, die zeitaufwändigen, speicherintensiven Operationen beim Transformer-Training durch den Einsatz von GEMM-Epilogue-Programmierung zu reduzieren. Dieser Ansatz ermöglicht die Ausführung zusätzlicher Berechnungen während des kurzen Zeitfensters, in dem die Ergebnisse der Matrixmultiplikation noch in On-Chip-Registern vorliegen, wodurch unnötige Speicherübertragungen vermieden werden.
Das CODA-Framework stellt fünf zusammensetzbare primitive Operationen im Epilog bereit, die eine effiziente Ausführung nahezu aller Operationen in den Vorwärts- und Rückwärtsdurchläufen eines Transformers ermöglichen, mit Ausnahme der Attention. Die Studie zeigt signifikante Leistungsverbesserungen, wobei CODA eine bis zu 1,8-fache Beschleunigung bei der Rückpropagation und eine Beschleunigung von 5 % bis 20 % bei der Verarbeitung ganzer Transformer-Schichten erreicht. Dieser Fortschritt unterstreicht das Potenzial von KI-Modellen, ihre eigene Trainingsinfrastruktur durch gut gestaltete Programmierabstraktionen zu optimieren.
CODA verbessert das Transformer-Training mit GEMM-Epilog-Optimierung
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
