틸드 리서치는 딥시크 V4와 GLM-5 같은 모델에서 널리 사용되는 옵티마이저인 Muon의 치명적인 결함을 해결하여 훈련 효율을 크게 향상시키는 새로운 옵티마이저 Aurora를 공개했습니다. Muon은 MLP 층의 뉴런 중 25% 이상이 초기 훈련 중 비활성화되는 문제를 일으키는 것으로 밝혀졌습니다. Aurora는 균일한 업데이트와 직교성 유지를 통해 이 문제를 줄여 훈련 효율을 100배 향상시켰습니다. Aurora의 혁신적인 접근법은 튜닝 없이도 계산 오버헤드를 6%만 증가시켜 Muon을 대체할 수 있게 합니다. 벤치마크 테스트에서 Aurora는 새로운 최첨단 기록을 세우며 모델 성능 향상에 대한 효과를 입증했습니다. 이 옵티마이저와 11억 개 파라미터의 사전 학습 모델은 오픈 소스로 공개되어 커뮤니티가 이 발전을 활용할 수 있게 되었습니다.