DeepSeek V4 tích hợp mô hình chuyên gia với On-Policy Distilla

DeepSeek V4 đã cải tiến phương pháp đào tạo của mình bằng cách thay thế giai đoạn học tăng cường hỗn hợp từ phiên bản V3.2 bằng Phân tách Chính sách (On-Policy Distillation - OPD). Phương pháp mới này bao gồm hai bước chính: đầu tiên, các mô hình chuyên gia theo lĩnh vực được đào tạo riêng biệt trên quy trình V3.2, tập trung vào các lĩnh vực như toán học, lập trình và theo dõi hướng dẫn. Các chuyên gia này được tinh chỉnh và đào tạo với GRPO cho học tăng cường. Thứ hai, OPD chắt lọc khả năng của hơn mười chuyên gia thành một mô hình thống nhất, sử dụng phân kỳ KL ngược để căn chỉnh phân phối đầu ra và hợp nhất trọng số mà không gây xung đột về khả năng. Ngoài ra, DeepSeek V4 còn giới thiệu Mô hình Phần thưởng Sinh tạo (Generative Reward Model - GRM) cho các nhiệm vụ khó xác thực bằng quy tắc. Thay vì các mô hình phần thưởng dạng vô hướng truyền thống, GRM sử dụng dữ liệu học tăng cường được hướng dẫn bởi bảng tiêu chí, cho phép mạng tác nhân tạo ra và đánh giá kết quả đồng thời. Phương pháp này đạt được khả năng tổng quát hóa cho các nhiệm vụ phức tạp với ít chú thích đa dạng từ con người.