El equipo de PyTorch ha anunciado la integración de CuteDSL como el cuarto backend de ajuste automático para TorchInductor. Esta decisión, revelada el 7 de abril, se basó en la mínima sobrecarga de mantenimiento de CuteDSL, sus tiempos de compilación eficientes y el rendimiento mejorado en las cargas de trabajo objetivo. Desarrollado por NVIDIA, CuteDSL ofrece plantillas de kernels optimizadas con tiempos de compilación comparables a los backends existentes y más rápidos que la ruta CUTLASS en C++. CuteDSL, escrito en Python, simplifica el mantenimiento y acelera la compilación mientras mantiene un rendimiento sólido en FP8 GEMM y fusión de epílogo. La integración se centra en optimizar GEMM, un componente computacional clave en los modelos Transformer, generando código de bajo nivel mediante plantillas ajustadas a mano. Este enfoque elimina la necesidad de escribir kernels desde cero y utiliza plenamente las jerarquías de hilos y memoria para soportar características específicas de la arquitectura.