Tilde Research hat Aurora vorgestellt, einen neuen Optimierer, der die Trainingseffizienz erheblich verbessert, indem er einen kritischen Fehler in Muon behebt, einem weit verbreiteten Optimierer in Modellen wie DeepSeek V4 und GLM-5. Es wurde festgestellt, dass Muon dazu führt, dass über 25 % der Neuronen in MLP-Schichten während des frühen Trainings inaktiv werden. Aurora verringert dieses Problem, indem es gleichmäßige Aktualisierungen sicherstellt und die Orthogonalität aufrechterhält, was zu einer hundertfachen Steigerung der Trainingseffizienz führt.
Der innovative Ansatz von Aurora ermöglicht es, Muon mit nur einem 6%igen Anstieg des Rechenaufwands zu ersetzen, ohne dass eine Feinabstimmung erforderlich ist. In Benchmark-Tests erreichte Aurora einen neuen Rekordstand und zeigte damit seine Wirksamkeit bei der Verbesserung der Modellleistung. Der Optimierer und ein vortrainiertes Modell mit 1,1 Milliarden Parametern wurden als Open Source veröffentlicht, um der Gemeinschaft Zugang zu diesen Fortschritten zu bieten.
Aurora-Optimizer steigert Trainingseffizienz und reduziert tote Neuronen in Muon
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
