Les spécifications techniques de DeepSeek V4 ont été révélées, présentant un modèle doté de 1,6 trillion de paramètres et d'une architecture sophistiquée. Yifan Zhang, doctorant à Princeton, a divulgué ces détails, mettant en avant l'utilisation par le modèle de DSA2, qui intègre DeepSeek Sparse Attention (DSA) et la nouvelle Native Sparse Attention (NSA). Le modèle dispose d'une dimension de tête de 512, de Sparse MQA et de SWA, avec une couche MoE comprenant 384 experts, dont six sont activés par jeton. De plus, une variante allégée, V4-Lite, avec 285 milliards de paramètres, a été introduite. Les spécificités de l'entraînement incluent l'optimiseur Muon, une longueur de contexte de pré-entraînement de 32K, et une longueur de contexte finale de 1M. Le modèle est conçu pour des applications textuelles uniquement. Malgré ces révélations, DeepSeek n'a pas commenté les informations partagées par Zhang, qui n'est pas affilié à l'entreprise.