오로라 옵티마이저, 무온에서 학습 효율성 향상 및 죽은 뉴런 감소

틸드 리서치는 딥시크 V4와 GLM-5 같은 모델에서 널리 사용되는 옵티마이저인 Muon의 치명적인 결함을 해결하여 훈련 효율을 크게 향상시키는 새로운 옵티마이저 Aurora를 공개했습니다. Muon은 MLP 층의 뉴런 중 25% 이상이 초기 훈련 중 비활성화되는 문제를 일으키는 것으로 밝혀졌습니다. Aurora는 균일한 업데이트와 직교성 유지를 통해 이 문제를 줄여 훈련 효율을 100배 향상시켰습니다. Aurora의 혁신적인 접근법은 튜닝 없이도 계산 오버헤드를 6%만 증가시켜 Muon을 대체할 수 있게 합니다. 벤치마크 테스트에서 Aurora는 새로운 최첨단 기록을 세우며 모델 성능 향상에 대한 효과를 입증했습니다. 이 옵티마이저와 11억 개 파라미터의 사전 학습 모델은 오픈 소스로 공개되어 커뮤니티가 이 발전을 활용할 수 있게 되었습니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.

함께 보면 좋은 콘텐츠