DeepSeek V4 обновила свою методологию обучения, заменив фазу смешанного обучения с подкреплением из версии V3.2 на дистилляцию по политике (On-Policy Distillation, OPD). Этот новый подход включает два ключевых этапа: во-первых, специализированные экспертные модели обучаются индивидуально на базе конвейера V3.2, с акцентом на такие области, как математика, программирование и выполнение инструкций. Эти эксперты дорабатываются и обучаются с использованием GRPO для обучения с подкреплением. Во-вторых, OPD объединяет возможности более десяти экспертов в единую модель, используя обратное расхождение Кульбака-Лейблера (reverse KL divergence) для согласования распределений выходных данных и слияния весов без конфликтов возможностей.
Кроме того, DeepSeek V4 вводит Генеративную Модель Награды (Generative Reward Model, GRM) для задач, которые сложно проверить с помощью правил. Вместо традиционных скалярных моделей награды GRM использует данные обучения с подкреплением, направляемые рубриками, что позволяет сети-актеру одновременно генерировать и оценивать результаты. Этот метод обеспечивает обобщение на сложные задачи с минимальным количеством разнообразных человеческих аннотаций.
DeepSeek V4 использует дистилляцию по политике и интегрирует экспертные модели
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
