DeepSeek V4は、V3.2の混合強化学習フェーズをオンポリシーディスティレーション(OPD)に置き換えることで、トレーニング手法を刷新しました。この新しいアプローチは二つの主要なステップから成り立っています。まず、数学、コーディング、指示の遵守などの分野に特化した専門家モデルをV3.2のパイプライン上で個別にトレーニングします。これらの専門家はGRPOを用いて微調整され、強化学習で訓練されます。次に、OPDは10以上の専門家の能力を統合モデルに蒸留し、逆KLダイバージェンスを用いて出力分布を整合させ、能力の衝突なく重みを統合します。
さらに、DeepSeek V4はルールで検証が難しいタスク向けに生成報酬モデル(GRM)を導入しました。従来のスカラー報酬モデルの代わりに、GRMはルーブリックに基づく強化学習データを使用し、アクターネットワークが出力を同時に生成および評価できるようにします。この方法により、多様な人間の注釈が最小限でも複雑なタスクへの一般化が達成されます。
DeepSeek V4がオンポリシーディスティレーションを採用し、専門家モデルを統合
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
