L'équipe PyTorch a annoncé l'intégration de CuteDSL en tant que quatrième backend de réglage automatique pour TorchInductor. Cette décision, révélée le 7 avril, s'appuie sur la faible charge de maintenance de CuteDSL, ses temps de compilation efficaces et ses performances améliorées sur les charges de travail ciblées. Développé par NVIDIA, CuteDSL propose des modèles de noyaux optimisés avec des temps de compilation comparables à ceux des backends existants et plus rapides que le chemin C++ CUTLASS.
Écrit en Python, CuteDSL simplifie la maintenance et accélère la compilation tout en maintenant de solides performances dans FP8 GEMM et la fusion d'épilogue. L'intégration se concentre sur l'optimisation de GEMM, un composant computationnel clé des modèles Transformer, en générant du code bas niveau via des modèles ajustés manuellement. Cette approche élimine le besoin d'écrire des noyaux à partir de zéro et exploite pleinement les hiérarchies de threads et de mémoire pour supporter les fonctionnalités spécifiques à l'architecture.
PyTorch intègre CuteDSL comme nouveau backend pour TorchInductor
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
