DeepSeek V4 ha renovado su metodología de entrenamiento reemplazando la fase de aprendizaje por refuerzo mixto de la versión V3.2 con la Destilación en Política (On-Policy Distillation, OPD). Este nuevo enfoque implica dos pasos clave: primero, se entrenan individualmente modelos expertos específicos de dominio en la pipeline de V3.2, enfocándose en áreas como matemáticas, programación y seguimiento de instrucciones. Estos expertos se afinan y entrenan con GRPO para el aprendizaje por refuerzo. Segundo, OPD destila las capacidades de más de diez expertos en un modelo unificado, utilizando la divergencia KL inversa para alinear las distribuciones de salida y fusionar pesos sin conflictos de capacidad. Además, DeepSeek V4 introduce el Modelo de Recompensa Generativo (Generative Reward Model, GRM) para tareas que son difíciles de validar con reglas. En lugar de los modelos tradicionales de recompensa escalar, GRM utiliza datos de aprendizaje por refuerzo guiados por rúbricas, permitiendo que la red actor genere y evalúe salidas simultáneamente. Este método logra la generalización a tareas complejas con un mínimo de anotaciones humanas diversas.