PyTorchチームは、TorchInductorの第4の自動チューニングバックエンドとしてCuteDSLの統合を発表しました。この決定は4月7日に明らかにされ、CuteDSLのメンテナンス負荷の最小化、効率的なコンパイル時間、およびターゲットワークロードでの性能向上に基づいています。NVIDIAによって開発されたCuteDSLは、既存のバックエンドと同等のコンパイル時間を持ち、CUTLASSのC++パスよりも高速な最適化されたカーネルテンプレートを提供します。 Pythonで書かれたCuteDSLは、メンテナンスを簡素化し、コンパイルを加速しながら、FP8 GEMMおよびエピローグフュージョンでの高い性能を維持します。この統合は、Transformerモデルの主要な計算要素であるGEMMの最適化に焦点を当てており、手作業で調整されたテンプレートを通じて低レベルコードを生成します。このアプローチにより、カーネルを一から書く必要がなくなり、スレッドとメモリ階層を最大限に活用してアーキテクチャ固有の機能をサポートします。