DeepSeek V4 Modellkarte bestätigt wichtige Komponenten, lässt Engram aus

Die V4-Modellkarte von DeepSeek hat drei Kernkomponenten ihrer Architektur bestätigt, nachdem die TileKernels-Bibliothek als Open Source veröffentlicht wurde. Das Modell verwendet Manifold-Constrained Hyper-Connections (mHC), eine Mixture-of-Experts-(MoE)-Architektur mit Top-k-Expertenrouting sowie FP4+FP8-Mischpräzision zur Gewichtsspeicherung. Diese Elemente wurden präzise aus der TileKernels-Bibliothek abgeleitet. Die Modellkarte erwähnt jedoch nicht das Engram-Conditional-Memory-Modul, das zuvor spekuliert wurde, aber weiterhin unbestätigt bleibt. Darüber hinaus führt die Karte neue Funktionen ein, die von TileKernels nicht abgedeckt werden, darunter einen hybriden Aufmerksamkeitsmechanismus (CSA + HCA), der die Effizienz bei langen Kontexten erheblich verbessert und die Inferenz-FLOPs auf 27 % sowie den KV-Cache auf 10 % des V3.2 bei einem Kontext unter 1 Million reduziert. Der Trainingsprozess nutzt nun den Muon-Optimizer.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen