CODA Otimiza Treinamento Transformer com GEMM-Epilogue

Pesquisadores do MIT, Princeton, Together AI e Meta apresentaram o CODA, uma nova abstração de programação voltada para otimizar o treinamento de modelos Transformer. O estudo, intitulado "CODA: Reescrevendo Blocos Transformer como Programas GEMM-Epilogue", foca na redução das operações intensivas em memória e que consomem muito tempo durante o treinamento de Transformers, aproveitando a programação GEMM-epílogo. Essa abordagem permite a execução de cálculos adicionais durante a breve janela em que os resultados da multiplicação de matrizes ainda estão nos registradores internos do chip, evitando assim transferências desnecessárias de memória. A estrutura do CODA expõe cinco operações primitivas compostas no epílogo, possibilitando a execução eficiente de quase todas as operações nas passagens direta e reversa de um Transformer, excluindo a atenção. O estudo demonstra melhorias significativas de desempenho, com o CODA alcançando até 1,8 vezes de aceleração na retropropagação e de 5% a 20% de aumento na velocidade no processamento completo das camadas do Transformer. Esse avanço destaca o potencial dos modelos de IA para otimizar sua própria infraestrutura de treinamento por meio de abstrações de programação bem projetadas.

Você também pode gostar