Pesquisadores do MIT, Princeton, Together AI e Meta apresentaram o CODA, uma nova abstração de programação voltada para otimizar o treinamento de modelos Transformer. O estudo, intitulado "CODA: Reescrevendo Blocos Transformer como Programas GEMM-Epilogue", foca na redução das operações intensivas em memória e que consomem muito tempo durante o treinamento de Transformers, aproveitando a programação GEMM-epílogo. Essa abordagem permite a execução de cálculos adicionais durante a breve janela em que os resultados da multiplicação de matrizes ainda estão nos registradores internos do chip, evitando assim transferências desnecessárias de memória.
A estrutura do CODA expõe cinco operações primitivas compostas no epílogo, possibilitando a execução eficiente de quase todas as operações nas passagens direta e reversa de um Transformer, excluindo a atenção. O estudo demonstra melhorias significativas de desempenho, com o CODA alcançando até 1,8 vezes de aceleração na retropropagação e de 5% a 20% de aumento na velocidade no processamento completo das camadas do Transformer. Esse avanço destaca o potencial dos modelos de IA para otimizar sua própria infraestrutura de treinamento por meio de abstrações de programação bem projetadas.
CODA aprimora o treinamento de Transformers com otimização GEMM-Epilogue
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
