DeepSeek'in V4 model kartı, TileKernels kütüphanesinin açık kaynak yapılmasının ardından mimarisinin üç temel bileşenini doğruladı. Model, Manifold-Kısıtlı Hiper-Bağlantılar (mHC), Top-k uzman yönlendirmeli uzman karışımı (MoE) mimarisi ve ağırlık depolama için FP4+FP8 karışık hassasiyet kullanıyor. Bu öğeler TileKernels kütüphanesinden doğru şekilde çıkarıldı. Ancak, model kartı daha önce speküle edilen ancak doğrulanmamış olan Engram koşullu bellek modülünden bahsetmiyor. Ayrıca, kart TileKernels tarafından kapsanmayan yeni özellikler sunuyor; bunlar arasında uzun bağlam verimliliğini önemli ölçüde artıran hibrit dikkat mekanizması (CSA + HCA) bulunuyor. Bu, çıkarım FLOP'larını %27'ye ve KV önbelleğini V3.2'nin 1M altı bağlamında %10'a düşürüyor. Eğitim süreci artık Muon optimizatörünü kullanıyor.