DeepSeek V4 đã cải tiến phương pháp đào tạo của mình bằng cách thay thế giai đoạn học tăng cường hỗn hợp từ phiên bản V3.2 bằng Phân tách Chính sách (On-Policy Distillation - OPD). Phương pháp mới này bao gồm hai bước chính: đầu tiên, các mô hình chuyên gia theo lĩnh vực được đào tạo riêng biệt trên quy trình V3.2, tập trung vào các lĩnh vực như toán học, lập trình và theo dõi hướng dẫn. Các chuyên gia này được tinh chỉnh và đào tạo với GRPO cho học tăng cường. Thứ hai, OPD chắt lọc khả năng của hơn mười chuyên gia thành một mô hình thống nhất, sử dụng phân kỳ KL ngược để căn chỉnh phân phối đầu ra và hợp nhất trọng số mà không gây xung đột về khả năng.
Ngoài ra, DeepSeek V4 còn giới thiệu Mô hình Phần thưởng Sinh tạo (Generative Reward Model - GRM) cho các nhiệm vụ khó xác thực bằng quy tắc. Thay vì các mô hình phần thưởng dạng vô hướng truyền thống, GRM sử dụng dữ liệu học tăng cường được hướng dẫn bởi bảng tiêu chí, cho phép mạng tác nhân tạo ra và đánh giá kết quả đồng thời. Phương pháp này đạt được khả năng tổng quát hóa cho các nhiệm vụ phức tạp với ít chú thích đa dạng từ con người.
DeepSeek V4 Áp Dụng Chưng Cất Theo Chính Sách, Tích Hợp Mô Hình Chuyên Gia
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
