Un artículo reciente de AMD y la Universidad Estatal de Pensilvania revela que la inestabilidad en el entrenamiento con FP4 se debe a errores estructurales de escalado, no a una aleatoriedad insuficiente. El estudio, que preentrenó con éxito el modelo Llama 3.1-8B en la GPU Instinct MI355X de AMD utilizando el formato MXFP4, logró una aceleración del 9–10 % en comparación con FP8, con solo un aumento del 8–9 % en la sobrecarga de tokens. Esto marca el primer experimento completo de preentrenamiento de modelos grandes en hardware nativo FP4.
La investigación destaca que la inestabilidad surge de la acumulación de errores estructurales a lo largo de rutas sensibles de gradiente, particularmente durante los cálculos de gradientes de peso. Los métodos tradicionales que introducían aleatoriedad no lograron estabilizar el entrenamiento, mientras que la rotación determinista de Hadamard redujo eficazmente la sobrecarga de tokens y mantuvo una calidad de convergencia cercana a FP8. Este avance sugiere que FP4 puede ser viable para el entrenamiento, potencialmente duplicando los recursos de cómputo para entrenamiento en el hardware existente.
Documento de AMD identifica errores estructurales como causa de la inestabilidad en el entrenamiento FP4
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
