PyTorch intègre CuteDSL comme backend pour TorchInductor

L'équipe PyTorch a annoncé l'intégration de CuteDSL en tant que quatrième backend de réglage automatique pour TorchInductor. Cette décision, révélée le 7 avril, s'appuie sur la faible charge de maintenance de CuteDSL, ses temps de compilation efficaces et ses performances améliorées sur les charges de travail ciblées. Développé par NVIDIA, CuteDSL propose des modèles de noyaux optimisés avec des temps de compilation comparables à ceux des backends existants et plus rapides que le chemin C++ CUTLASS. Écrit en Python, CuteDSL simplifie la maintenance et accélère la compilation tout en maintenant de solides performances dans FP8 GEMM et la fusion d'épilogue. L'intégration se concentre sur l'optimisation de GEMM, un composant computationnel clé des modèles Transformer, en générant du code bas niveau via des modèles ajustés manuellement. Cette approche élimine le besoin d'écrire des noyaux à partir de zéro et exploite pleinement les hiérarchies de threads et de mémoire pour supporter les fonctionnalités spécifiques à l'architecture.

Vous pourriez aussi aimer