Um artigo recente da AMD e da Universidade Estadual da Pensilvânia revela que a instabilidade no treinamento FP4 se deve a erros estruturais de escala, e não à falta de aleatoriedade. O estudo, que pré-treinou com sucesso o modelo Llama 3.1-8B na GPU Instinct MI355X da AMD usando o formato MXFP4, alcançou um aumento de velocidade de 9 a 10% em relação ao FP8, com apenas um aumento de 8 a 9% na sobrecarga de tokens. Este é o primeiro experimento completo de pré-treinamento de grandes modelos em hardware nativo FP4.
A pesquisa destaca que a instabilidade surge do acúmulo de erros estruturais ao longo de caminhos sensíveis de gradiente, particularmente durante os cálculos do gradiente de peso. Métodos tradicionais que introduziam aleatoriedade falharam em estabilizar o treinamento, enquanto a rotação determinística de Hadamard reduziu efetivamente a sobrecarga de tokens e manteve a qualidade da convergência próxima ao FP8. Essa descoberta sugere que o FP4 pode ser viável para treinamento, potencialmente dobrando os recursos computacionais de treinamento no hardware existente.
Artigo da AMD Identifica Erros Estruturais como Causa da Instabilidade no Treinamento FP4
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
