Một bài báo gần đây của AMD và Đại học Bang Pennsylvania tiết lộ rằng sự không ổn định trong việc huấn luyện FP4 là do lỗi tỷ lệ cấu trúc, không phải do thiếu ngẫu nhiên. Nghiên cứu này, đã thành công trong việc tiền huấn luyện mô hình Llama 3.1-8B trên GPU Instinct MI355X của AMD sử dụng định dạng MXFP4, đạt được tốc độ nhanh hơn 9–10% so với FP8 với chỉ tăng 8–9% chi phí token. Đây là thí nghiệm hoàn chỉnh đầu tiên về tiền huấn luyện mô hình lớn trên phần cứng FP4 gốc.
Nghiên cứu nhấn mạnh rằng sự không ổn định phát sinh từ sự tích tụ các lỗi cấu trúc dọc theo các đường gradient nhạy cảm, đặc biệt trong quá trình tính toán gradient trọng số. Các phương pháp truyền thống sử dụng ngẫu nhiên không thể ổn định quá trình huấn luyện, trong khi phép quay Hadamard xác định hiệu quả giảm chi phí token và duy trì chất lượng hội tụ gần với FP8. Đột phá này cho thấy FP4 có thể khả thi cho việc huấn luyện, có thể tăng gấp đôi tài nguyên tính toán huấn luyện trên phần cứng hiện có.
Bài báo của AMD xác định lỗi cấu trúc là nguyên nhân gây ra sự không ổn định trong đào tạo FP4
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
