DeepSeek'in V4 model kartı, TileKernels kütüphanesinin açık kaynak yapılmasının ardından mimarisinin üç temel bileşenini doğruladı. Model, Manifold-Kısıtlı Hiper-Bağlantılar (mHC), Top-k uzman yönlendirmeli uzman karışımı (MoE) mimarisi ve ağırlık depolama için FP4+FP8 karışık hassasiyet kullanıyor. Bu öğeler TileKernels kütüphanesinden doğru şekilde çıkarıldı.
Ancak, model kartı daha önce speküle edilen ancak doğrulanmamış olan Engram koşullu bellek modülünden bahsetmiyor. Ayrıca, kart TileKernels tarafından kapsanmayan yeni özellikler sunuyor; bunlar arasında uzun bağlam verimliliğini önemli ölçüde artıran hibrit dikkat mekanizması (CSA + HCA) bulunuyor. Bu, çıkarım FLOP'larını %27'ye ve KV önbelleğini V3.2'nin 1M altı bağlamında %10'a düşürüyor. Eğitim süreci artık Muon optimizatörünü kullanıyor.
DeepSeek V4 Model Kartı Önemli Bileşenleri Onayladı, Engramı Atladı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
