AMDとペンシルベニア州立大学による最近の論文は、FP4トレーニングの不安定性がランダム性の不足ではなく、構造的なスケーリングエラーによるものであることを明らかにしています。この研究では、AMDのInstinct MI355X GPU上でMXFP4フォーマットを使用してLlama 3.1-8Bモデルの事前学習に成功し、FP8に比べて9〜10%の速度向上を達成し、トークンオーバーヘッドはわずか8〜9%の増加にとどまりました。これは、ネイティブFP4ハードウェア上での大規模モデルの事前学習の完全な実験としては初のものです。 研究は、不安定性が特に重み勾配計算時に敏感な勾配経路に沿った構造的エラーの蓄積から生じていることを強調しています。ランダム性を導入した従来の方法はトレーニングの安定化に失敗しましたが、決定論的なハダマード回転はトークンオーバーヘッドを効果的に削減し、FP8に近い収束品質を維持しました。この画期的な成果は、FP4がトレーニングに適用可能であり、既存のハードウェア上でトレーニング計算資源を倍増させる可能性があることを示唆しています。