DeepSeek V4: интеграция экспертных моделей и On-Policy

DeepSeek V4 обновила свою методологию обучения, заменив фазу смешанного обучения с подкреплением из версии V3.2 на дистилляцию по политике (On-Policy Distillation, OPD). Этот новый подход включает два ключевых этапа: во-первых, специализированные экспертные модели обучаются индивидуально на базе конвейера V3.2, с акцентом на такие области, как математика, программирование и выполнение инструкций. Эти эксперты дорабатываются и обучаются с использованием GRPO для обучения с подкреплением. Во-вторых, OPD объединяет возможности более десяти экспертов в единую модель, используя обратное расхождение Кульбака-Лейблера (reverse KL divergence) для согласования распределений выходных данных и слияния весов без конфликтов возможностей. Кроме того, DeepSeek V4 вводит Генеративную Модель Награды (Generative Reward Model, GRM) для задач, которые сложно проверить с помощью правил. Вместо традиционных скалярных моделей награды GRM использует данные обучения с подкреплением, направляемые рубриками, что позволяет сети-актеру одновременно генерировать и оценивать результаты. Этот метод обеспечивает обобщение на сложные задачи с минимальным количеством разнообразных человеческих аннотаций.