O cartão do modelo V4 da DeepSeek confirmou três componentes principais de sua arquitetura, após a abertura do código da biblioteca TileKernels. O modelo emprega Conexões Hiper-Constrangidas por Múltiplas Variedades (mHC), uma arquitetura de mistura de especialistas (MoE) com roteamento dos principais especialistas (Top-k), e precisão mista FP4+FP8 para armazenamento de pesos. Esses elementos foram inferidos com precisão a partir da biblioteca TileKernels. No entanto, o cartão do modelo não menciona o módulo de memória condicional Engram, que foi anteriormente especulado, mas permanece não confirmado. Além disso, o cartão introduz novos recursos não cobertos pelo TileKernels, incluindo um mecanismo híbrido de atenção (CSA + HCA) que melhora significativamente a eficiência em contextos longos, reduzindo os FLOPs de inferência para 27% e o cache KV para 10% do contexto inferior a 1M do V3.2. O processo de treinamento agora utiliza o otimizador Muon.