Aurora Optimizörü Eğitim Verimliliğini Artırıyor, Muon'daki Ölü Nöronları Azaltıyor

Tilde Research, DeepSeek V4 ve GLM-5 gibi modellerde yaygın olarak kullanılan Muon optimizatöründeki kritik bir hatayı gidererek eğitim verimliliğini önemli ölçüde artıran yeni bir optimizatör olan Aurora'yı tanıttı. Muon'un, MLP katmanlarındaki nöronların %25'inden fazlasının erken eğitim sırasında etkisiz hale gelmesine neden olduğu tespit edildi. Aurora, eşit güncellemeler sağlayarak ve ortogonaliteyi koruyarak bu sorunu azaltıyor ve böylece eğitim verimliliğinde 100 kat artış sağlıyor. Aurora'nın yenilikçi yaklaşımı, ayar yapmaya gerek kalmadan sadece %6'lık bir hesaplama yükü artışıyla Muon'un yerini almasını mümkün kılıyor. Kıyaslama testlerinde Aurora, model performansını artırmadaki etkinliğini göstererek yeni bir en iyi performans rekoru kırdı. Optimizatör ve 1.1 milyar parametreli önceden eğitilmiş model açık kaynak olarak sunuldu ve topluluğun bu gelişmelere erişimi sağlandı.

Kaynak: Orijinalini Göster

Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler