MIT、プリンストン大学、Together AI、Metaの研究者たちは、Transformerモデルのトレーニングを最適化することを目的とした新しいプログラミング抽象化であるCODAを発表しました。研究論文「CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs」では、GEMM-エピローグプログラミングを活用して、Transformerトレーニングにおける時間のかかるメモリ集約的な操作を削減することに焦点を当てています。この手法により、行列乗算の結果がオンチップレジスタにまだ存在する短い時間内に追加の計算を実行でき、不必要なメモリ転送を回避できます。
CODAのフレームワークは、エピローグで5つの合成可能なプリミティブ操作を公開しており、注意機構を除くTransformerの順伝播および逆伝播のほぼすべての操作を効率的に実行可能にします。研究では、CODAが逆伝播で最大1.8倍の高速化を達成し、完全なTransformerレイヤー処理で5%から20%の加速を示すなど、著しい性能向上を実証しています。この進展は、AIモデルが適切に設計されたプログラミング抽象化を通じて、自身のトレーニングインフラを最適化する可能性を示しています。
CODA、GEMM-エピローグ最適化でトランスフォーマーの学習を強化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
