Das PyTorch-Team hat die Integration von CuteDSL als vierten automatischen Tuning-Backend für TorchInductor angekündigt. Diese Entscheidung, die am 7. April bekannt gegeben wurde, basiert auf dem minimalen Wartungsaufwand von CuteDSL, effizienten Kompilierungszeiten und verbesserter Leistung bei den Ziel-Workloads. Entwickelt von NVIDIA bietet CuteDSL optimierte Kernel-Vorlagen mit Kompilierungszeiten, die mit bestehenden Backends vergleichbar und schneller als der CUTLASS C++-Pfad sind. CuteDSL, in Python geschrieben, vereinfacht die Wartung und beschleunigt die Kompilierung, während es eine starke Leistung bei FP8 GEMM und Epilog-Fusion beibehält. Die Integration konzentriert sich auf die Optimierung von GEMM, einer wichtigen Rechenkomponente in Transformer-Modellen, indem sie Low-Level-Code durch handabgestimmte Vorlagen generiert. Dieser Ansatz eliminiert die Notwendigkeit, Kernel von Grund auf neu zu schreiben, und nutzt vollständig die Thread- und Speicherhierarchien, um architekturspezifische Funktionen zu unterstützen.