CODA Tối Ưu Huấn Luyện Transformer với GEMM-Epilogue

Các nhà nghiên cứu từ MIT, Princeton, Together AI và Meta đã giới thiệu CODA, một trừu tượng lập trình mới nhằm tối ưu hóa việc huấn luyện mô hình Transformer. Nghiên cứu với tiêu đề "CODA: Viết lại các khối Transformer dưới dạng chương trình GEMM-Epilogue" tập trung vào việc giảm các thao tác tốn thời gian và bộ nhớ trong quá trình huấn luyện Transformer bằng cách tận dụng lập trình GEMM-epilogue. Phương pháp này cho phép thực hiện các phép tính bổ sung trong khoảng thời gian ngắn khi kết quả nhân ma trận vẫn còn trong các thanh ghi trên chip, từ đó tránh được việc truyền bộ nhớ không cần thiết. Khung làm việc của CODA cung cấp năm phép toán nguyên thủy có thể kết hợp tại phần epilogue, cho phép thực thi hiệu quả gần như tất cả các thao tác trong quá trình truyền tiến và truyền ngược của Transformer, ngoại trừ phần attention. Nghiên cứu chứng minh sự cải thiện đáng kể về hiệu suất, với CODA đạt được tốc độ nhanh hơn tới 1,8 lần trong quá trình lan truyền ngược và tăng tốc từ 5% đến 20% trong xử lý toàn bộ lớp Transformer. Tiến bộ này làm nổi bật tiềm năng của các mô hình AI trong việc tối ưu hóa hạ tầng huấn luyện của chính chúng thông qua các trừu tượng lập trình được thiết kế tốt.

Bạn cũng có thể thích