PyTorch ekibi, CuteDSL'nin TorchInductor için dördüncü otomatik ayar arka ucu olarak entegrasyonunu duyurdu. 7 Nisan'da açıklanan bu karar, CuteDSL'nin minimal bakım yükü, verimli derleme süreleri ve hedef iş yüklerinde artırılmış performansına dayanıyordu. NVIDIA tarafından geliştirilen CuteDSL, mevcut arka uçlarla karşılaştırılabilir derleme sürelerine sahip optimize edilmiş çekirdek şablonları sunar ve CUTLASS C++ yolundan daha hızlıdır. Python ile yazılan CuteDSL, bakımı basitleştirir ve derlemeyi hızlandırırken FP8 GEMM ve epilog füzyonunda güçlü performansı korur. Entegrasyon, Transformer modellerinde önemli bir hesaplama bileşeni olan GEMM'yi optimize etmeye odaklanır; bu, elle ayarlanmış şablonlar aracılığıyla düşük seviyeli kod üreterek gerçekleştirilir. Bu yaklaşım, çekirdekleri sıfırdan yazma ihtiyacını ortadan kaldırır ve mimariye özgü özellikleri desteklemek için iş parçacığı ve bellek hiyerarşilerini tam olarak kullanır.