DeepSeek V4 confirma componentes clave, omite Engram

La tarjeta del modelo V4 de DeepSeek ha confirmado tres componentes principales de su arquitectura, tras la liberación del código abierto de la biblioteca TileKernels. El modelo emplea Conexiones Hiper-Constrainadas por Variedades (mHC), una arquitectura de mezcla de expertos (MoE) con enrutamiento de expertos Top-k, y precisión mixta FP4+FP8 para el almacenamiento de pesos. Estos elementos fueron inferidos con precisión a partir de la biblioteca TileKernels. Sin embargo, la tarjeta del modelo no menciona el módulo de memoria condicional Engram, que se había especulado anteriormente pero sigue sin confirmarse. Además, la tarjeta introduce nuevas características no cubiertas por TileKernels, incluyendo un mecanismo de atención híbrido (CSA + HCA) que mejora significativamente la eficiencia en contextos largos, reduciendo los FLOPs de inferencia al 27% y la caché KV al 10% del contexto de menos de 1 millón de V3.2. El proceso de entrenamiento ahora utiliza el optimizador Muon.

También te podría gustar