DeepSeek V4は、V3.2の混合強化学習フェーズをオンポリシーディスティレーション(OPD)に置き換えることで、トレーニング手法を刷新しました。この新しいアプローチは二つの主要なステップから成り立っています。まず、数学、コーディング、指示の遵守などの分野に特化した専門家モデルをV3.2のパイプライン上で個別にトレーニングします。これらの専門家はGRPOを用いて微調整され、強化学習で訓練されます。次に、OPDは10以上の専門家の能力を統合モデルに蒸留し、逆KLダイバージェンスを用いて出力分布を整合させ、能力の衝突なく重みを統合します。 さらに、DeepSeek V4はルールで検証が難しいタスク向けに生成報酬モデル(GRM)を導入しました。従来のスカラー報酬モデルの代わりに、GRMはルーブリックに基づく強化学習データを使用し、アクターネットワークが出力を同時に生成および評価できるようにします。この方法により、多様な人間の注釈が最小限でも複雑なタスクへの一般化が達成されます。