A equipe do PyTorch anunciou a integração do CuteDSL como o quarto backend de ajuste automático para o TorchInductor. Essa decisão, revelada em 7 de abril, foi baseada na baixa sobrecarga de manutenção do CuteDSL, nos tempos eficientes de compilação e no desempenho aprimorado em cargas de trabalho específicas. Desenvolvido pela NVIDIA, o CuteDSL oferece templates de kernel otimizados com tempos de compilação comparáveis aos backends existentes e mais rápidos que o caminho CUTLASS em C++. O CuteDSL, escrito em Python, simplifica a manutenção e acelera a compilação, mantendo um desempenho forte em FP8 GEMM e fusão de epílogo. A integração foca na otimização do GEMM, um componente computacional chave em modelos Transformer, gerando código de baixo nível por meio de templates ajustados manualmente. Essa abordagem elimina a necessidade de escrever kernels do zero e utiliza plenamente as hierarquias de threads e memória para suportar recursos específicos da arquitetura.