Aurora Optimizer : Optimise l'efficacité et réduit les pertes

Tilde Research a dévoilé Aurora, un nouvel optimiseur qui améliore considérablement l'efficacité de l'entraînement en corrigeant une faille critique de Muon, un optimiseur largement utilisé dans des modèles tels que DeepSeek V4 et GLM-5. Il a été constaté que Muon provoquait l'inactivation de plus de 25 % des neurones dans les couches MLP lors des premières phases d'entraînement. Aurora réduit ce problème en assurant des mises à jour uniformes et en maintenant l'orthogonalité, ce qui conduit à une augmentation de l'efficacité de l'entraînement d'un facteur 100. L'approche innovante d'Aurora lui permet de remplacer Muon avec seulement une augmentation de 6 % de la charge computationnelle, sans nécessiter de réglages. Lors des tests de référence, Aurora a établi un nouveau record de pointe, démontrant son efficacité à améliorer les performances des modèles. L'optimiseur ainsi qu'un modèle pré-entraîné de 1,1 milliard de paramètres ont été rendus open source, offrant à la communauté un accès à ces avancées.

Vous pourriez aussi aimer