CODAがGEMMエピローグでTransformer学習を最適化

MIT、プリンストン大学、Together AI、Metaの研究者たちは、Transformerモデルのトレーニングを最適化することを目的とした新しいプログラミング抽象化であるCODAを発表しました。研究論文「CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs」では、GEMM-エピローグプログラミングを活用して、Transformerトレーニングにおける時間のかかるメモリ集約的な操作を削減することに焦点を当てています。この手法により、行列乗算の結果がオンチップレジスタにまだ存在する短い時間内に追加の計算を実行でき、不必要なメモリ転送を回避できます。 CODAのフレームワークは、エピローグで5つの合成可能なプリミティブ操作を公開しており、注意機構を除くTransformerの順伝播および逆伝播のほぼすべての操作を効率的に実行可能にします。研究では、CODAが逆伝播で最大1.8倍の高速化を達成し、完全なTransformerレイヤー処理で5％から20％の加速を示すなど、著しい性能向上を実証しています。この進展は、AIモデルが適切に設計されたプログラミング抽象化を通じて、自身のトレーニングインフラを最適化する可能性を示しています。

​​こちらもおすすめ​​

こちらもおすすめ