DeepSeek V4 reformulou sua metodologia de treinamento ao substituir a fase de aprendizado por reforço misto da versão V3.2 pela Destilação On-Policy (OPD). Essa nova abordagem envolve dois passos principais: primeiro, modelos especialistas específicos de domínio são treinados individualmente na pipeline da V3.2, focando em áreas como matemática, programação e seguimento de instruções. Esses especialistas são ajustados e treinados com GRPO para aprendizado por reforço. Segundo, a OPD destila as capacidades de mais de dez especialistas em um modelo unificado, utilizando divergência KL reversa para alinhar distribuições de saída e mesclar pesos sem conflitos de capacidade. Além disso, o DeepSeek V4 introduz o Modelo de Recompensa Generativo (GRM) para tarefas que são difíceis de validar com regras. Em vez dos tradicionais modelos de recompensa escalar, o GRM utiliza dados de aprendizado por reforço guiados por rubricas, permitindo que a rede ator gere e avalie saídas simultaneamente. Esse método alcança generalização para tarefas complexas com anotações humanas diversas mínimas.