DeepSeek V4 hat seine Trainingsmethodik überarbeitet, indem die gemischte Verstärkungslernphase aus V3.2 durch On-Policy Distillation (OPD) ersetzt wurde. Dieser neue Ansatz umfasst zwei wesentliche Schritte: Zunächst werden domänenspezifische Expertenmodelle einzeln auf der V3.2-Pipeline trainiert, wobei der Fokus auf Bereichen wie Mathematik, Programmierung und Befolgung von Anweisungen liegt. Diese Experten werden feinabgestimmt und mit GRPO für das Verstärkungslernen trainiert. Zweitens destilliert OPD die Fähigkeiten von über zehn Experten in ein einheitliches Modell, wobei die reverse KL-Divergenz verwendet wird, um die Ausgabeverteilungen anzugleichen und Gewichte ohne Fähigkeitskonflikte zu verschmelzen.
Darüber hinaus führt DeepSeek V4 das Generative Reward Model (GRM) für Aufgaben ein, die schwer mit Regeln zu validieren sind. Anstelle traditioneller skalare Belohnungsmodelle verwendet GRM rubric-gesteuerte Verstärkungslerndaten, die es dem Actor-Netzwerk ermöglichen, Ausgaben gleichzeitig zu generieren und zu bewerten. Diese Methode erreicht eine Generalisierung auf komplexe Aufgaben mit minimalen, vielfältigen menschlichen Annotationen.
DeepSeek V4 setzt auf On-Policy-Distillation und integriert Expertenmodelle
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
