Компания Tilde Research представила Aurora — новый оптимизатор, который значительно повышает эффективность обучения, устраняя критический недостаток Muon, широко используемого оптимизатора в таких моделях, как DeepSeek V4 и GLM-5. Было обнаружено, что Muon вызывает деактивацию более 25% нейронов в слоях MLP на ранних этапах обучения. Aurora решает эту проблему, обеспечивая равномерные обновления и поддерживая ортогональность, что приводит к увеличению эффективности обучения в 100 раз.
Инновационный подход Aurora позволяет заменить Muon с увеличением вычислительной нагрузки всего на 6%, без необходимости дополнительной настройки. В тестах на эталонных данных Aurora установила новый рекорд, демонстрируя свою эффективность в улучшении производительности моделей. Оптимизатор и предварительно обученная модель с 1,1 миллиарда параметров были опубликованы с открытым исходным кодом, предоставляя сообществу доступ к этим достижениям.
Оптимизатор Aurora повышает эффективность обучения и снижает количество «мертвых» нейронов в Muon
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
