Die technischen Spezifikationen von DeepSeek V4 wurden enthüllt und zeigen ein Modell mit 1,6 Billionen Parametern und einer ausgefeilten Architektur. Der Doktorand der Princeton University, Yifan Zhang, gab diese Details bekannt und hob die Verwendung von DSA2 hervor, das DeepSeek Sparse Attention (DSA) und die neue Native Sparse Attention (NSA) integriert. Das Modell verfügt über eine Kopf-Dimension von 512, Sparse MQA und SWA sowie eine MoE-Schicht mit 384 Experten, von denen sechs pro Token aktiviert werden. Zusätzlich wurde eine leichtgewichtige Variante, V4-Lite, mit 285 Milliarden Parametern vorgestellt. Zu den Trainingsdetails gehören der Muon-Optimizer, eine Vortrainings-Kontextlänge von 32K und eine finale Kontextlänge von 1M. Das Modell ist für rein textbasierte Anwendungen konzipiert. Trotz dieser Enthüllungen hat sich DeepSeek nicht zu den von Zhang geteilten Informationen geäußert, der nicht mit dem Unternehmen verbunden ist.