Estudo AMD revela erros estruturais causam falha no treino FP4

Um artigo recente da AMD e da Universidade Estadual da Pensilvânia revela que a instabilidade no treinamento FP4 se deve a erros estruturais de escala, e não à falta de aleatoriedade. O estudo, que pré-treinou com sucesso o modelo Llama 3.1-8B na GPU Instinct MI355X da AMD usando o formato MXFP4, alcançou um aumento de velocidade de 9 a 10% em relação ao FP8, com apenas um aumento de 8 a 9% na sobrecarga de tokens. Este é o primeiro experimento completo de pré-treinamento de grandes modelos em hardware nativo FP4. A pesquisa destaca que a instabilidade surge do acúmulo de erros estruturais ao longo de caminhos sensíveis de gradiente, particularmente durante os cálculos do gradiente de peso. Métodos tradicionais que introduziam aleatoriedade falharam em estabilizar o treinamento, enquanto a rotação determinística de Hadamard reduziu efetivamente a sobrecarga de tokens e manteve a qualidade da convergência próxima ao FP8. Essa descoberta sugere que o FP4 pode ser viável para treinamento, potencialmente dobrando os recursos computacionais de treinamento no hardware existente.

Você também pode gostar