Se han revelado las especificaciones técnicas de DeepSeek V4, mostrando un modelo con 1.6 billones de parámetros y una arquitectura sofisticada. Yifan Zhang, estudiante de doctorado en Princeton, divulgó estos detalles, destacando el uso del modelo de DSA2, que integra DeepSeek Sparse Attention (DSA) y la nueva Native Sparse Attention (NSA). El modelo presenta una dimensión de cabeza de 512, Sparse MQA y SWA, con una capa MoE que comprende 384 expertos, de los cuales seis se activan por token. Además, se presentó una variante ligera, V4-Lite, con 285 mil millones de parámetros. Los detalles del entrenamiento incluyen el optimizador Muon, una longitud de contexto de preentrenamiento de 32K y una longitud de contexto final de 1M. El modelo está diseñado para aplicaciones solo de texto. A pesar de estas revelaciones, DeepSeek no ha comentado sobre la información compartida por Zhang, quien no está afiliado a la empresa.