DeepSeek V4, eğitim metodolojisini V3.2'deki karma pekiştirmeli öğrenme aşamasını On-Policy Distillation (OPD) ile değiştirerek yeniledi. Bu yeni yaklaşım iki temel adımdan oluşuyor: İlk olarak, matematik, kodlama ve talimat takibi gibi alanlara odaklanan, alan spesifik uzman modelleri V3.2 hattında ayrı ayrı eğitiliyor. Bu uzmanlar, pekiştirmeli öğrenme için GRPO ile ince ayar yapılıp eğitiliyor. İkinci olarak, OPD, ondan fazla uzmanın yeteneklerini ters KL sapması kullanarak çıktı dağılımlarını hizalayıp yetenek çatışması olmadan ağırlıkları birleştirerek birleşik bir modele dönüştürüyor.
Ayrıca, DeepSeek V4, kurallarla doğrulanması zor görevler için Generative Reward Model (GRM) modelini tanıtıyor. Geleneksel skaler ödül modelleri yerine, GRM, rubrik rehberli pekiştirmeli öğrenme verisi kullanarak aktör ağının çıktıları eş zamanlı olarak üretip değerlendirmesine olanak tanıyor. Bu yöntem, az sayıda çeşitli insan anotasyonuyla karmaşık görevlere genelleme sağlamayı başarıyor.
DeepSeek V4, Politika Üzerinden Distilasyon Benimseyerek Uzman Modelleri Entegre Ediyor
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
