Tilde Research a dévoilé Aurora, un nouvel optimiseur qui améliore considérablement l'efficacité de l'entraînement en corrigeant une faille critique de Muon, un optimiseur largement utilisé dans des modèles tels que DeepSeek V4 et GLM-5. Il a été constaté que Muon provoquait l'inactivation de plus de 25 % des neurones dans les couches MLP lors des premières phases d'entraînement. Aurora réduit ce problème en assurant des mises à jour uniformes et en maintenant l'orthogonalité, ce qui conduit à une augmentation de l'efficacité de l'entraînement d'un facteur 100.
L'approche innovante d'Aurora lui permet de remplacer Muon avec seulement une augmentation de 6 % de la charge computationnelle, sans nécessiter de réglages. Lors des tests de référence, Aurora a établi un nouveau record de pointe, démontrant son efficacité à améliorer les performances des modèles. L'optimiseur ainsi qu'un modèle pré-entraîné de 1,1 milliard de paramètres ont été rendus open source, offrant à la communauté un accès à ces avancées.
L'optimiseur Aurora améliore l'efficacité de l'entraînement et réduit les neurones morts dans Muon
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
