Tilde Researchは、DeepSeek V4やGLM-5などのモデルで広く使用されているオプティマイザーMuonの重大な欠陥を解決することで、トレーニング効率を大幅に向上させる新しいオプティマイザー「Aurora」を発表しました。Muonは、MLP層のニューロンの25%以上が初期トレーニング中に非活性化する原因となっていることが判明しました。Auroraは、均一な更新と直交性の維持を確保することでこの問題を軽減し、トレーニング効率を100倍に向上させます。
Auroraの革新的なアプローチにより、チューニング不要で計算オーバーヘッドをわずか6%増加させるだけでMuonを置き換えることが可能です。ベンチマークテストでは、Auroraが新たな最先端記録を達成し、モデル性能の向上に効果的であることを示しました。このオプティマイザーと11億パラメータの事前学習済みモデルはオープンソース化され、コミュニティにこれらの進歩へのアクセスを提供しています。
オーロラオプティマイザーがトレーニング効率を向上、ミューオンのデッドニューロンを削減
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
