A equipe do PyTorch anunciou a integração do CuteDSL como o quarto backend de ajuste automático para o TorchInductor. Essa decisão, revelada em 7 de abril, foi baseada na baixa sobrecarga de manutenção do CuteDSL, nos tempos eficientes de compilação e no desempenho aprimorado em cargas de trabalho específicas. Desenvolvido pela NVIDIA, o CuteDSL oferece templates de kernel otimizados com tempos de compilação comparáveis aos backends existentes e mais rápidos que o caminho CUTLASS em C++.
O CuteDSL, escrito em Python, simplifica a manutenção e acelera a compilação, mantendo um desempenho forte em FP8 GEMM e fusão de epílogo. A integração foca na otimização do GEMM, um componente computacional chave em modelos Transformer, gerando código de baixo nível por meio de templates ajustados manualmente. Essa abordagem elimina a necessidade de escrever kernels do zero e utiliza plenamente as hierarquias de threads e memória para suportar recursos específicos da arquitetura.
PyTorch integra CuteDSL como novo backend para TorchInductor
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
