A Tilde Research revelou o Aurora, um novo otimizador que melhora significativamente a eficiência do treinamento ao corrigir uma falha crítica no Muon, um otimizador amplamente utilizado em modelos como DeepSeek V4 e GLM-5. Foi descoberto que o Muon fazia com que mais de 25% dos neurônios nas camadas MLP ficassem inativos durante o início do treinamento. O Aurora reduz esse problema garantindo atualizações uniformes e mantendo a ortogonalidade, levando a um aumento de 100 vezes na eficiência do treinamento. A abordagem inovadora do Aurora permite que ele substitua o Muon com apenas um aumento de 6% na sobrecarga computacional, sem necessidade de ajustes. Em testes de benchmark, o Aurora alcançou um novo recorde de estado da arte, demonstrando sua eficácia na melhoria do desempenho do modelo. O otimizador e um modelo pré-treinado de 1,1 bilhão de parâmetros foram disponibilizados como código aberto, oferecendo à comunidade acesso a esses avanços.