DeepSeek V4는 V3.2의 혼합 강화 학습 단계를 온-폴리시 증류(On-Policy Distillation, OPD)로 대체하여 훈련 방법론을 혁신했습니다. 이 새로운 접근법은 두 가지 주요 단계로 구성됩니다. 첫째, 수학, 코딩, 지시 따르기 등 특정 분야에 특화된 전문가 모델들을 V3.2 파이프라인에서 개별적으로 훈련합니다. 이 전문가 모델들은 GRPO를 사용해 강화 학습을 위해 미세 조정되고 훈련됩니다. 둘째, OPD는 10개 이상의 전문가 능력을 하나의 통합 모델로 증류하며, 역 KL 발산을 사용해 출력 분포를 정렬하고 능력 충돌 없이 가중치를 병합합니다. 또한, DeepSeek V4는 규칙으로 검증하기 어려운 작업을 위해 생성 보상 모델(Generative Reward Model, GRM)을 도입했습니다. 전통적인 스칼라 보상 모델 대신, GRM은 루브릭 기반 강화 학습 데이터를 사용하여 액터 네트워크가 출력을 동시에 생성하고 평가할 수 있게 합니다. 이 방법은 최소한의 다양한 인간 주석으로 복잡한 작업에 대한 일반화를 달성합니다.