DeepSeek V4 Dévoilé : 1,6 Billion de Paramètres et Architecture Avancée

Les spécifications techniques de DeepSeek V4 ont été révélées, présentant un modèle doté de 1,6 trillion de paramètres et d'une architecture sophistiquée. Yifan Zhang, doctorant à Princeton, a divulgué ces détails, mettant en avant l'utilisation par le modèle de DSA2, qui intègre DeepSeek Sparse Attention (DSA) et la nouvelle Native Sparse Attention (NSA). Le modèle dispose d'une dimension de tête de 512, de Sparse MQA et de SWA, avec une couche MoE comprenant 384 experts, dont six sont activés par jeton. De plus, une variante allégée, V4-Lite, avec 285 milliards de paramètres, a été introduite. Les spécificités de l'entraînement incluent l'optimiseur Muon, une longueur de contexte de pré-entraînement de 32K, et une longueur de contexte finale de 1M. Le modèle est conçu pour des applications textuelles uniquement. Malgré ces révélations, DeepSeek n'a pas commenté les informations partagées par Zhang, qui n'est pas affilié à l'entreprise.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.