DeepSeek V4 reformulou sua metodologia de treinamento ao substituir a fase de aprendizado por reforço misto da versão V3.2 pela Destilação On-Policy (OPD). Essa nova abordagem envolve dois passos principais: primeiro, modelos especialistas específicos de domínio são treinados individualmente na pipeline da V3.2, focando em áreas como matemática, programação e seguimento de instruções. Esses especialistas são ajustados e treinados com GRPO para aprendizado por reforço. Segundo, a OPD destila as capacidades de mais de dez especialistas em um modelo unificado, utilizando divergência KL reversa para alinhar distribuições de saída e mesclar pesos sem conflitos de capacidade.
Além disso, o DeepSeek V4 introduz o Modelo de Recompensa Generativo (GRM) para tarefas que são difíceis de validar com regras. Em vez dos tradicionais modelos de recompensa escalar, o GRM utiliza dados de aprendizado por reforço guiados por rubricas, permitindo que a rede ator gere e avalie saídas simultaneamente. Esse método alcança generalização para tarefas complexas com anotações humanas diversas mínimas.
DeepSeek V4 Adota Destilação On-Policy e Integra Modelos Especialistas
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
