PyTorch añade CuteDSL como nuevo backend para TorchInductor

El equipo de PyTorch ha anunciado la integración de CuteDSL como el cuarto backend de ajuste automático para TorchInductor. Esta decisión, revelada el 7 de abril, se basó en la mínima sobrecarga de mantenimiento de CuteDSL, sus tiempos de compilación eficientes y el rendimiento mejorado en las cargas de trabajo objetivo. Desarrollado por NVIDIA, CuteDSL ofrece plantillas de kernels optimizadas con tiempos de compilación comparables a los backends existentes y más rápidos que la ruta CUTLASS en C++. CuteDSL, escrito en Python, simplifica el mantenimiento y acelera la compilación mientras mantiene un rendimiento sólido en FP8 GEMM y fusión de epílogo. La integración se centra en optimizar GEMM, un componente computacional clave en los modelos Transformer, generando código de bajo nivel mediante plantillas ajustadas a mano. Este enfoque elimina la necesidad de escribir kernels desde cero y utiliza plenamente las jerarquías de hilos y memoria para soportar características específicas de la arquitectura.

También te podría gustar