CODA optimiert Transformer-Training mit GEMM-Epilog

Forscher vom MIT, Princeton, Together AI und Meta haben CODA vorgestellt, eine neue Programmierabstraktion, die darauf abzielt, das Training von Transformer-Modellen zu optimieren. Die Studie mit dem Titel "CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs" konzentriert sich darauf, die zeitaufwändigen, speicherintensiven Operationen beim Transformer-Training durch den Einsatz von GEMM-Epilogue-Programmierung zu reduzieren. Dieser Ansatz ermöglicht die Ausführung zusätzlicher Berechnungen während des kurzen Zeitfensters, in dem die Ergebnisse der Matrixmultiplikation noch in On-Chip-Registern vorliegen, wodurch unnötige Speicherübertragungen vermieden werden. Das CODA-Framework stellt fünf zusammensetzbare primitive Operationen im Epilog bereit, die eine effiziente Ausführung nahezu aller Operationen in den Vorwärts- und Rückwärtsdurchläufen eines Transformers ermöglichen, mit Ausnahme der Attention. Die Studie zeigt signifikante Leistungsverbesserungen, wobei CODA eine bis zu 1,8-fache Beschleunigung bei der Rückpropagation und eine Beschleunigung von 5 % bis 20 % bei der Verarbeitung ganzer Transformer-Schichten erreicht. Dieser Fortschritt unterstreicht das Potenzial von KI-Modellen, ihre eigene Trainingsinfrastruktur durch gut gestaltete Programmierabstraktionen zu optimieren.

Das könnte Ihnen auch gefallen