Исследователи из MIT, Принстона, Together AI и Meta представили CODA — новую программную абстракцию, направленную на оптимизацию обучения моделей Transformer. В исследовании под названием «CODA: переписывание блоков Transformer как программ GEMM-эпилога» основное внимание уделяется сокращению времязатратных операций, требующих большого объема памяти, в процессе обучения Transformer с использованием программирования GEMM-эпилога. Этот подход позволяет выполнять дополнительные вычисления в короткий промежуток времени, когда результаты умножения матриц еще находятся в регистрах на чипе, что позволяет избежать ненужных передач данных в память.
Фреймворк CODA предоставляет пять компонуемых примитивных операций на этапе эпилога, что обеспечивает эффективное выполнение почти всех операций в прямом и обратном проходах Transformer, за исключением внимания. Исследование демонстрирует значительное улучшение производительности: CODA обеспечивает ускорение обратного распространения ошибки до 1,8 раза и ускорение обработки полного слоя Transformer от 5% до 20%. Этот прогресс подчеркивает потенциал моделей ИИ оптимизировать собственную инфраструктуру обучения с помощью грамотно разработанных программных абстракций.
CODA улучшает обучение трансформеров с помощью оптимизации GEMM-Epilogue
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
