Die V4-Modellkarte von DeepSeek hat drei Kernkomponenten ihrer Architektur bestätigt, nachdem die TileKernels-Bibliothek als Open Source veröffentlicht wurde. Das Modell verwendet Manifold-Constrained Hyper-Connections (mHC), eine Mixture-of-Experts-(MoE)-Architektur mit Top-k-Expertenrouting sowie FP4+FP8-Mischpräzision zur Gewichtsspeicherung. Diese Elemente wurden präzise aus der TileKernels-Bibliothek abgeleitet. Die Modellkarte erwähnt jedoch nicht das Engram-Conditional-Memory-Modul, das zuvor spekuliert wurde, aber weiterhin unbestätigt bleibt. Darüber hinaus führt die Karte neue Funktionen ein, die von TileKernels nicht abgedeckt werden, darunter einen hybriden Aufmerksamkeitsmechanismus (CSA + HCA), der die Effizienz bei langen Kontexten erheblich verbessert und die Inferenz-FLOPs auf 27 % sowie den KV-Cache auf 10 % des V3.2 bei einem Kontext unter 1 Million reduziert. Der Trainingsprozess nutzt nun den Muon-Optimizer.