DeepSeek V4 hat seine Trainingsmethodik überarbeitet, indem die gemischte Verstärkungslernphase aus V3.2 durch On-Policy Distillation (OPD) ersetzt wurde. Dieser neue Ansatz umfasst zwei wesentliche Schritte: Zunächst werden domänenspezifische Expertenmodelle einzeln auf der V3.2-Pipeline trainiert, wobei der Fokus auf Bereichen wie Mathematik, Programmierung und Befolgung von Anweisungen liegt. Diese Experten werden feinabgestimmt und mit GRPO für das Verstärkungslernen trainiert. Zweitens destilliert OPD die Fähigkeiten von über zehn Experten in ein einheitliches Modell, wobei die reverse KL-Divergenz verwendet wird, um die Ausgabeverteilungen anzugleichen und Gewichte ohne Fähigkeitskonflikte zu verschmelzen. Darüber hinaus führt DeepSeek V4 das Generative Reward Model (GRM) für Aufgaben ein, die schwer mit Regeln zu validieren sind. Anstelle traditioneller skalare Belohnungsmodelle verwendet GRM rubric-gesteuerte Verstärkungslerndaten, die es dem Actor-Netzwerk ermöglichen, Ausgaben gleichzeitig zu generieren und zu bewerten. Diese Methode erreicht eine Generalisierung auf komplexe Aufgaben mit minimalen, vielfältigen menschlichen Annotationen.