AMD Makalesi: Yapısal Hatalar FP4 Eğitimini Etkiliyor

AMD ve Pennsylvania State University tarafından yayımlanan yakın tarihli bir makale, FP4 eğitimindeki kararsızlığın yetersiz rastgelelikten değil, yapısal ölçekleme hatalarından kaynaklandığını ortaya koyuyor. MXFP4 formatını kullanarak AMD'nin Instinct MI355X GPU'sunda Llama 3.1-8B modelini başarıyla önceden eğiten çalışma, FP8'e kıyasla yalnızca %8–9 token ek yükü ile %9–10 hız artışı sağladı. Bu, yerel FP4 donanımı üzerinde büyük model ön eğitimine dair ilk tam deney olarak kayda geçti. Araştırma, kararsızlığın özellikle ağırlık gradyanı hesaplamaları sırasında hassas gradyan yolları boyunca yapısal hataların birikmesinden kaynaklandığını vurguluyor. Rastgelelik ekleyen geleneksel yöntemler eğitimi stabilize edemedi, oysa deterministik Hadamard rotasyonu token ek yükünü etkili şekilde azaltarak FP8'e yakın yakınsama kalitesini korudu. Bu atılım, FP4'ün eğitim için uygulanabilir olabileceğini ve mevcut donanımda eğitim hesaplama kaynaklarını potansiyel olarak iki katına çıkarabileceğini gösteriyor.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler