DeepSeek V4 Revelado: 1,6 Trilhões de Parâmetros e Arquitetura Avançada

As especificações técnicas do DeepSeek V4 foram reveladas, apresentando um modelo com 1,6 trilhão de parâmetros e uma arquitetura sofisticada. O estudante de doutorado de Princeton, Yifan Zhang, divulgou esses detalhes, destacando o uso do DSA2 pelo modelo, que integra o DeepSeek Sparse Attention (DSA) e a nova Native Sparse Attention (NSA). O modelo possui uma dimensão de cabeça de 512, Sparse MQA e SWA, com uma camada MoE composta por 384 especialistas, dos quais seis são ativados por token. Além disso, foi introduzida uma variante leve, a V4-Lite, com 285 bilhões de parâmetros. As especificações de treinamento incluem o otimizador Muon, um comprimento de contexto de pré-treinamento de 32K e um comprimento de contexto final de 1M. O modelo é projetado para aplicações apenas de texto. Apesar dessas revelações, a DeepSeek não comentou sobre as informações compartilhadas por Zhang, que não é afiliado à empresa.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.