El Optimizador Aurora Aumenta la Eficiencia del Entrenamiento y Reduce Neuronas Muertas en Muon

Tilde Research ha presentado Aurora, un nuevo optimizador que mejora significativamente la eficiencia del entrenamiento al abordar una falla crítica en Muon, un optimizador ampliamente utilizado en modelos como DeepSeek V4 y GLM-5. Se descubrió que Muon causa que más del 25% de las neuronas en las capas MLP se vuelvan inactivas durante el entrenamiento inicial. Aurora reduce este problema asegurando actualizaciones uniformes y manteniendo la ortogonalidad, lo que conduce a un aumento de 100 veces en la eficiencia del entrenamiento. El enfoque innovador de Aurora le permite reemplazar a Muon con solo un aumento del 6% en la sobrecarga computacional, sin necesidad de ajustes. En pruebas de referencia, Aurora logró un nuevo récord de última generación, demostrando su efectividad para mejorar el rendimiento del modelo. El optimizador y un modelo preentrenado de 1.1 mil millones han sido liberados como código abierto, ofreciendo a la comunidad acceso a estos avances.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.

También te podría gustar