Aurora Optimizerで学習効率向上と無駄削減

Tilde Researchは、DeepSeek V4やGLM-5などのモデルで広く使用されているオプティマイザーMuonの重大な欠陥を解決することで、トレーニング効率を大幅に向上させる新しいオプティマイザー「Aurora」を発表しました。Muonは、MLP層のニューロンの25%以上が初期トレーニング中に非活性化する原因となっていることが判明しました。Auroraは、均一な更新と直交性の維持を確保することでこの問題を軽減し、トレーニング効率を100倍に向上させます。 Auroraの革新的なアプローチにより、チューニング不要で計算オーバーヘッドをわずか6%増加させるだけでMuonを置き換えることが可能です。ベンチマークテストでは、Auroraが新たな最先端記録を達成し、モデル性能の向上に効果的であることを示しました。このオプティマイザーと11億パラメータの事前学習済みモデルはオープンソース化され、コミュニティにこれらの進歩へのアクセスを提供しています。

​​こちらもおすすめ​​

こちらもおすすめ