CODA, GEMM-Epilogue로 트랜스포머 학습 최적화

MIT, 프린스턴, Together AI, 메타의 연구진이 Transformer 모델 학습 최적화를 목표로 하는 새로운 프로그래밍 추상화인 CODA를 소개했습니다. "CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs"라는 제목의 이 연구는 GEMM-에필로그 프로그래밍을 활용하여 Transformer 학습에서 시간 소모가 크고 메모리 집약적인 작업을 줄이는 데 중점을 두고 있습니다. 이 접근법은 행렬 곱셈 결과가 온칩 레지스터에 남아 있는 짧은 시간 동안 추가 계산을 수행할 수 있게 하여 불필요한 메모리 전송을 피할 수 있습니다. CODA의 프레임워크는 에필로그 단계에서 다섯 가지 조합 가능한 원시 연산을 노출하여, 어텐션을 제외한 Transformer의 순방향 및 역방향 패스의 거의 모든 연산을 효율적으로 실행할 수 있게 합니다. 연구 결과 CODA는 역전파에서 최대 1.8배의 속도 향상과 전체 Transformer 레이어 처리에서 5%에서 20%까지 가속을 달성하는 등 상당한 성능 개선을 보여주었습니다. 이 발전은 잘 설계된 프로그래밍 추상화를 통해 AI 모델이 자체 학습 인프라를 최적화할 수 있는 가능성을 강조합니다.

함께 보면 좋은 콘텐츠