Estudio AMD: Errores estructurales causan fallo en entrenamiento FP4

Un artículo reciente de AMD y la Universidad Estatal de Pensilvania revela que la inestabilidad en el entrenamiento con FP4 se debe a errores estructurales de escalado, no a una aleatoriedad insuficiente. El estudio, que preentrenó con éxito el modelo Llama 3.1-8B en la GPU Instinct MI355X de AMD utilizando el formato MXFP4, logró una aceleración del 9–10 % en comparación con FP8, con solo un aumento del 8–9 % en la sobrecarga de tokens. Esto marca el primer experimento completo de preentrenamiento de modelos grandes en hardware nativo FP4. La investigación destaca que la inestabilidad surge de la acumulación de errores estructurales a lo largo de rutas sensibles de gradiente, particularmente durante los cálculos de gradientes de peso. Los métodos tradicionales que introducían aleatoriedad no lograron estabilizar el entrenamiento, mientras que la rotación determinista de Hadamard redujo eficazmente la sobrecarga de tokens y mantuvo una calidad de convergencia cercana a FP8. Este avance sugiere que FP4 puede ser viable para el entrenamiento, potencialmente duplicando los recursos de cómputo para entrenamiento en el hardware existente.

También te podría gustar