Tilde Research đã giới thiệu Aurora, một bộ tối ưu mới giúp nâng cao đáng kể hiệu quả đào tạo bằng cách khắc phục một lỗi nghiêm trọng trong Muon, một bộ tối ưu được sử dụng rộng rãi trong các mô hình như DeepSeek V4 và GLM-5. Muon được phát hiện gây ra tình trạng hơn 25% các neuron trong các lớp MLP trở nên không hoạt động trong giai đoạn đào tạo ban đầu. Aurora giảm thiểu vấn đề này bằng cách đảm bảo các cập nhật đồng đều và duy trì tính trực giao, dẫn đến tăng hiệu quả đào tạo lên gấp 100 lần.
Phương pháp đổi mới của Aurora cho phép nó thay thế Muon chỉ với mức tăng 6% về chi phí tính toán, mà không cần điều chỉnh. Trong các bài kiểm tra chuẩn, Aurora đã đạt được kỷ lục mới về hiệu suất, chứng minh hiệu quả của nó trong việc cải thiện hiệu suất mô hình. Bộ tối ưu và một mô hình đã được đào tạo trước với 1,1 tỷ tham số đã được công khai mã nguồn, mang lại cho cộng đồng quyền truy cập vào những tiến bộ này.
Bộ Tối Ưu Aurora Tăng Hiệu Quả Đào Tạo, Giảm Số Lượng Neuron Chết trong Muon
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
