La fiche technique du modèle V4 de DeepSeek a confirmé trois composants clés de son architecture, suite à l'ouverture du code de la bibliothèque TileKernels. Le modèle utilise des Hyper-Connexions Contraintes par Variété (mHC), une architecture mixture d'experts (MoE) avec un routage des experts Top-k, ainsi qu'une précision mixte FP4+FP8 pour le stockage des poids. Ces éléments ont été précisément déduits de la bibliothèque TileKernels.
Cependant, la fiche technique ne mentionne pas le module de mémoire conditionnelle Engram, qui avait été précédemment spéculé mais reste non confirmé. De plus, la fiche introduit de nouvelles fonctionnalités non couvertes par TileKernels, incluant un mécanisme d'attention hybride (CSA + HCA) qui améliore significativement l'efficacité sur les longs contextes, réduisant les FLOPs d'inférence à 27 % et le cache KV à 10 % de celui de la version V3.2 sous un contexte de moins d'un million. Le processus d'entraînement utilise désormais l'optimiseur Muon.
La fiche technique du modèle DeepSeek V4 confirme les composants clés, omet l'engramme
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
