DeepSeek V4 vorgestellt: 1,6 Billionen Parameter und fortschrittliche Architektur

Die technischen Spezifikationen von DeepSeek V4 wurden enthüllt und zeigen ein Modell mit 1,6 Billionen Parametern und einer ausgefeilten Architektur. Der Doktorand der Princeton University, Yifan Zhang, gab diese Details bekannt und hob die Verwendung von DSA2 hervor, das DeepSeek Sparse Attention (DSA) und die neue Native Sparse Attention (NSA) integriert. Das Modell verfügt über eine Kopf-Dimension von 512, Sparse MQA und SWA sowie eine MoE-Schicht mit 384 Experten, von denen sechs pro Token aktiviert werden. Zusätzlich wurde eine leichtgewichtige Variante, V4-Lite, mit 285 Milliarden Parametern vorgestellt. Zu den Trainingsdetails gehören der Muon-Optimizer, eine Vortrainings-Kontextlänge von 32K und eine finale Kontextlänge von 1M. Das Modell ist für rein textbasierte Anwendungen konzipiert. Trotz dieser Enthüllungen hat sich DeepSeek nicht zu den von Zhang geteilten Informationen geäußert, der nicht mit dem Unternehmen verbunden ist.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.