Eine kürzlich veröffentlichte Studie von AMD und der Pennsylvania State University zeigt, dass die Instabilität beim FP4-Training auf strukturelle Skalierungsfehler zurückzuführen ist und nicht auf unzureichende Zufälligkeit. Die Studie, in der das Llama 3.1-8B Modell erfolgreich auf der AMD Instinct MI355X GPU im MXFP4-Format vortrainiert wurde, erzielte eine Geschwindigkeitssteigerung von 9–10 % gegenüber FP8 bei nur einem Anstieg des Token-Overheads um 8–9 %. Dies markiert das erste vollständige Experiment zum Vortraining großer Modelle auf nativer FP4-Hardware. Die Forschung hebt hervor, dass die Instabilität durch die Akkumulation struktureller Fehler entlang sensibler Gradientenpfade entsteht, insbesondere während der Berechnung der Gewichtungsgradienten. Traditionelle Methoden, die Zufälligkeit einführten, konnten das Training nicht stabilisieren, während die deterministische Hadamard-Rotation den Token-Overhead effektiv reduzierte und die Konvergenzqualität nahe an FP8 hielt. Dieser Durchbruch legt nahe, dass FP4 für das Training geeignet sein kann und möglicherweise die Trainingsrechenressourcen auf bestehender Hardware verdoppelt.