DeepSeek V4 ha renovado su metodología de entrenamiento reemplazando la fase de aprendizaje por refuerzo mixto de la versión V3.2 con la Destilación en Política (On-Policy Distillation, OPD). Este nuevo enfoque implica dos pasos clave: primero, se entrenan individualmente modelos expertos específicos de dominio en la pipeline de V3.2, enfocándose en áreas como matemáticas, programación y seguimiento de instrucciones. Estos expertos se afinan y entrenan con GRPO para el aprendizaje por refuerzo. Segundo, OPD destila las capacidades de más de diez expertos en un modelo unificado, utilizando la divergencia KL inversa para alinear las distribuciones de salida y fusionar pesos sin conflictos de capacidad.
Además, DeepSeek V4 introduce el Modelo de Recompensa Generativo (Generative Reward Model, GRM) para tareas que son difíciles de validar con reglas. En lugar de los modelos tradicionales de recompensa escalar, GRM utiliza datos de aprendizaje por refuerzo guiados por rúbricas, permitiendo que la red actor genere y evalúe salidas simultáneamente. Este método logra la generalización a tareas complejas con un mínimo de anotaciones humanas diversas.
DeepSeek V4 adopta destilación en política e integra modelos expertos
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
