Оптимизатор Aurora: повышение эффективности обучения

Компания Tilde Research представила Aurora — новый оптимизатор, который значительно повышает эффективность обучения, устраняя критический недостаток Muon, широко используемого оптимизатора в таких моделях, как DeepSeek V4 и GLM-5. Было обнаружено, что Muon вызывает деактивацию более 25% нейронов в слоях MLP на ранних этапах обучения. Aurora решает эту проблему, обеспечивая равномерные обновления и поддерживая ортогональность, что приводит к увеличению эффективности обучения в 100 раз. Инновационный подход Aurora позволяет заменить Muon с увеличением вычислительной нагрузки всего на 6%, без необходимости дополнительной настройки. В тестах на эталонных данных Aurora установила новый рекорд, демонстрируя свою эффективность в улучшении производительности моделей. Оптимизатор и предварительно обученная модель с 1,1 миллиарда параметров были опубликованы с открытым исходным кодом, предоставляя сообществу доступ к этим достижениям.

Вам также может понравиться