Aurora Optimizer Tăng Hiệu Quả Đào Tạo, Giảm Lỗi

Tilde Research đã giới thiệu Aurora, một bộ tối ưu mới giúp nâng cao đáng kể hiệu quả đào tạo bằng cách khắc phục một lỗi nghiêm trọng trong Muon, một bộ tối ưu được sử dụng rộng rãi trong các mô hình như DeepSeek V4 và GLM-5. Muon được phát hiện gây ra tình trạng hơn 25% các neuron trong các lớp MLP trở nên không hoạt động trong giai đoạn đào tạo ban đầu. Aurora giảm thiểu vấn đề này bằng cách đảm bảo các cập nhật đồng đều và duy trì tính trực giao, dẫn đến tăng hiệu quả đào tạo lên gấp 100 lần. Phương pháp đổi mới của Aurora cho phép nó thay thế Muon chỉ với mức tăng 6% về chi phí tính toán, mà không cần điều chỉnh. Trong các bài kiểm tra chuẩn, Aurora đã đạt được kỷ lục mới về hiệu suất, chứng minh hiệu quả của nó trong việc cải thiện hiệu suất mô hình. Bộ tối ưu và một mô hình đã được đào tạo trước với 1,1 tỷ tham số đã được công khai mã nguồn, mang lại cho cộng đồng quyền truy cập vào những tiến bộ này.

Bạn cũng có thể thích