MIT, 프린스턴, Together AI, 메타의 연구진이 Transformer 모델 학습 최적화를 목표로 하는 새로운 프로그래밍 추상화인 CODA를 소개했습니다. "CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs"라는 제목의 이 연구는 GEMM-에필로그 프로그래밍을 활용하여 Transformer 학습에서 시간 소모가 크고 메모리 집약적인 작업을 줄이는 데 중점을 두고 있습니다. 이 접근법은 행렬 곱셈 결과가 온칩 레지스터에 남아 있는 짧은 시간 동안 추가 계산을 수행할 수 있게 하여 불필요한 메모리 전송을 피할 수 있습니다.
CODA의 프레임워크는 에필로그 단계에서 다섯 가지 조합 가능한 원시 연산을 노출하여, 어텐션을 제외한 Transformer의 순방향 및 역방향 패스의 거의 모든 연산을 효율적으로 실행할 수 있게 합니다. 연구 결과 CODA는 역전파에서 최대 1.8배의 속도 향상과 전체 Transformer 레이어 처리에서 5%에서 20%까지 가속을 달성하는 등 상당한 성능 개선을 보여주었습니다. 이 발전은 잘 설계된 프로그래밍 추상화를 통해 AI 모델이 자체 학습 인프라를 최적화할 수 있는 가능성을 강조합니다.
CODA, GEMM-Epilogue 최적화로 트랜스포머 학습 강화
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
