DeepSeek V4 a repensé sa méthodologie d'entraînement en remplaçant la phase d'apprentissage par renforcement mixte de la version V3.2 par la Distillation On-Policy (OPD). Cette nouvelle approche comprend deux étapes clés : d'abord, des modèles experts spécifiques à chaque domaine sont entraînés individuellement sur le pipeline V3.2, en se concentrant sur des domaines tels que les mathématiques, la programmation et le suivi des instructions. Ces experts sont affinés et entraînés avec GRPO pour l'apprentissage par renforcement. Ensuite, l'OPD distille les capacités de plus de dix experts en un modèle unifié, utilisant la divergence KL inverse pour aligner les distributions de sortie et fusionner les poids sans conflits de capacités. De plus, DeepSeek V4 introduit le Modèle de Récompense Générative (GRM) pour les tâches difficiles à valider par des règles. Au lieu des modèles de récompense scalaires traditionnels, le GRM utilise des données d'apprentissage par renforcement guidées par une grille d'évaluation, permettant au réseau acteur de générer et d'évaluer les sorties simultanément. Cette méthode permet une généralisation aux tâches complexes avec un minimum d'annotations humaines diversifiées.