Aurora Optimizer steigert Trainingseffizienz, reduziert Ausfall

Tilde Research hat Aurora vorgestellt, einen neuen Optimierer, der die Trainingseffizienz erheblich verbessert, indem er einen kritischen Fehler in Muon behebt, einem weit verbreiteten Optimierer in Modellen wie DeepSeek V4 und GLM-5. Es wurde festgestellt, dass Muon dazu führt, dass über 25 % der Neuronen in MLP-Schichten während des frühen Trainings inaktiv werden. Aurora verringert dieses Problem, indem es gleichmäßige Aktualisierungen sicherstellt und die Orthogonalität aufrechterhält, was zu einer hundertfachen Steigerung der Trainingseffizienz führt. Der innovative Ansatz von Aurora ermöglicht es, Muon mit nur einem 6%igen Anstieg des Rechenaufwands zu ersetzen, ohne dass eine Feinabstimmung erforderlich ist. In Benchmark-Tests erreichte Aurora einen neuen Rekordstand und zeigte damit seine Wirksamkeit bei der Verbesserung der Modellleistung. Der Optimierer und ein vortrainiertes Modell mit 1,1 Milliarden Parametern wurden als Open Source veröffentlicht, um der Gemeinschaft Zugang zu diesen Fortschritten zu bieten.

Das könnte Ihnen auch gefallen