Исследователи из MIT, Принстона, Together AI и Meta представили CODA — новую программную абстракцию, направленную на оптимизацию обучения моделей Transformer. В исследовании под названием «CODA: переписывание блоков Transformer как программ GEMM-эпилога» основное внимание уделяется сокращению времязатратных операций, требующих большого объема памяти, в процессе обучения Transformer с использованием программирования GEMM-эпилога. Этот подход позволяет выполнять дополнительные вычисления в короткий промежуток времени, когда результаты умножения матриц еще находятся в регистрах на чипе, что позволяет избежать ненужных передач данных в память. Фреймворк CODA предоставляет пять компонуемых примитивных операций на этапе эпилога, что обеспечивает эффективное выполнение почти всех операций в прямом и обратном проходах Transformer, за исключением внимания. Исследование демонстрирует значительное улучшение производительности: CODA обеспечивает ускорение обратного распространения ошибки до 1,8 раза и ускорение обработки полного слоя Transformer от 5% до 20%. Этот прогресс подчеркивает потенциал моделей ИИ оптимизировать собственную инфраструктуру обучения с помощью грамотно разработанных программных абстракций.