La tarjeta del modelo V4 de DeepSeek ha confirmado tres componentes principales de su arquitectura, tras la liberación del código abierto de la biblioteca TileKernels. El modelo emplea Conexiones Hiper-Constrainadas por Variedades (mHC), una arquitectura de mezcla de expertos (MoE) con enrutamiento de expertos Top-k, y precisión mixta FP4+FP8 para el almacenamiento de pesos. Estos elementos fueron inferidos con precisión a partir de la biblioteca TileKernels.
Sin embargo, la tarjeta del modelo no menciona el módulo de memoria condicional Engram, que se había especulado anteriormente pero sigue sin confirmarse. Además, la tarjeta introduce nuevas características no cubiertas por TileKernels, incluyendo un mecanismo de atención híbrido (CSA + HCA) que mejora significativamente la eficiencia en contextos largos, reduciendo los FLOPs de inferencia al 27% y la caché KV al 10% del contexto de menos de 1 millón de V3.2. El proceso de entrenamiento ahora utiliza el optimizador Muon.
La tarjeta del modelo DeepSeek V4 confirma componentes clave, omite Engram
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
