As especificações técnicas do DeepSeek V4 foram reveladas, apresentando um modelo com 1,6 trilhão de parâmetros e uma arquitetura sofisticada. O estudante de doutorado de Princeton, Yifan Zhang, divulgou esses detalhes, destacando o uso do DSA2 pelo modelo, que integra o DeepSeek Sparse Attention (DSA) e a nova Native Sparse Attention (NSA). O modelo possui uma dimensão de cabeça de 512, Sparse MQA e SWA, com uma camada MoE composta por 384 especialistas, dos quais seis são ativados por token. Além disso, foi introduzida uma variante leve, a V4-Lite, com 285 bilhões de parâmetros. As especificações de treinamento incluem o otimizador Muon, um comprimento de contexto de pré-treinamento de 32K e um comprimento de contexto final de 1M. O modelo é projetado para aplicações apenas de texto. Apesar dessas revelações, a DeepSeek não comentou sobre as informações compartilhadas por Zhang, que não é afiliado à empresa.