Otimizador Aurora Aumenta a Eficiência do Treinamento e Reduz Neurônios Mortos no Muon

A Tilde Research revelou o Aurora, um novo otimizador que melhora significativamente a eficiência do treinamento ao corrigir uma falha crítica no Muon, um otimizador amplamente utilizado em modelos como DeepSeek V4 e GLM-5. Foi descoberto que o Muon fazia com que mais de 25% dos neurônios nas camadas MLP ficassem inativos durante o início do treinamento. O Aurora reduz esse problema garantindo atualizações uniformes e mantendo a ortogonalidade, levando a um aumento de 100 vezes na eficiência do treinamento. A abordagem inovadora do Aurora permite que ele substitua o Muon com apenas um aumento de 6% na sobrecarga computacional, sem necessidade de ajustes. Em testes de benchmark, o Aurora alcançou um novo recorde de estado da arte, demonstrando sua eficácia na melhoria do desempenho do modelo. O otimizador e um modelo pré-treinado de 1,1 bilhão de parâmetros foram disponibilizados como código aberto, oferecendo à comunidade acesso a esses avanços.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar