Ficha Técnica do Modelo DeepSeek V4 Confirma Componentes Principais, Omite Engrama

O cartão do modelo V4 da DeepSeek confirmou três componentes principais de sua arquitetura, após a abertura do código da biblioteca TileKernels. O modelo emprega Conexões Hiper-Constrangidas por Múltiplas Variedades (mHC), uma arquitetura de mistura de especialistas (MoE) com roteamento dos principais especialistas (Top-k), e precisão mista FP4+FP8 para armazenamento de pesos. Esses elementos foram inferidos com precisão a partir da biblioteca TileKernels. No entanto, o cartão do modelo não menciona o módulo de memória condicional Engram, que foi anteriormente especulado, mas permanece não confirmado. Além disso, o cartão introduz novos recursos não cobertos pelo TileKernels, incluindo um mecanismo híbrido de atenção (CSA + HCA) que melhora significativamente a eficiência em contextos longos, reduzindo os FLOPs de inferência para 27% e o cache KV para 10% do contexto inferior a 1M do V3.2. O processo de treinamento agora utiliza o otimizador Muon.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar