AMD ve Pennsylvania State University tarafından yayımlanan yakın tarihli bir makale, FP4 eğitimindeki kararsızlığın yetersiz rastgelelikten değil, yapısal ölçekleme hatalarından kaynaklandığını ortaya koyuyor. MXFP4 formatını kullanarak AMD'nin Instinct MI355X GPU'sunda Llama 3.1-8B modelini başarıyla önceden eğiten çalışma, FP8'e kıyasla yalnızca %8–9 token ek yükü ile %9–10 hız artışı sağladı. Bu, yerel FP4 donanımı üzerinde büyük model ön eğitimine dair ilk tam deney olarak kayda geçti.
Araştırma, kararsızlığın özellikle ağırlık gradyanı hesaplamaları sırasında hassas gradyan yolları boyunca yapısal hataların birikmesinden kaynaklandığını vurguluyor. Rastgelelik ekleyen geleneksel yöntemler eğitimi stabilize edemedi, oysa deterministik Hadamard rotasyonu token ek yükünü etkili şekilde azaltarak FP8'e yakın yakınsama kalitesini korudu. Bu atılım, FP4'ün eğitim için uygulanabilir olabileceğini ve mevcut donanımda eğitim hesaplama kaynaklarını potansiyel olarak iki katına çıkarabileceğini gösteriyor.
AMD Makalesi, FP4 Eğitim İstikrarsızlığının Sebebi Olarak Yapısal Hataları Belirledi
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
