Un article récent d'AMD et de l'Université d'État de Pennsylvanie révèle que l'instabilité lors de l'entraînement en FP4 est due à des erreurs de mise à l'échelle structurelle, et non à un manque d'aléa. L'étude, qui a réussi à pré-entraîner le modèle Llama 3.1-8B sur le GPU Instinct MI355X d'AMD en utilisant le format MXFP4, a obtenu une accélération de 9 à 10 % par rapport au FP8 avec seulement une augmentation de 8 à 9 % de la surcharge en tokens. Il s'agit de la première expérience complète de pré-entraînement de grands modèles sur du matériel natif FP4. La recherche souligne que l'instabilité provient de l'accumulation d'erreurs structurelles le long de chemins de gradient sensibles, en particulier lors des calculs de gradients de poids. Les méthodes traditionnelles introduisant de l'aléa n'ont pas réussi à stabiliser l'entraînement, tandis que la rotation déterministe d'Hadamard a efficacement réduit la surcharge en tokens et maintenu une qualité de convergence proche du FP8. Cette avancée suggère que le FP4 peut être viable pour l'entraînement, doublant potentiellement les ressources de calcul disponibles sur le matériel existant.