DeepSeek V4 Revelado: 1.6 Billones de Parámetros y Arquitectura Avanzada

Se han revelado las especificaciones técnicas de DeepSeek V4, mostrando un modelo con 1.6 billones de parámetros y una arquitectura sofisticada. Yifan Zhang, estudiante de doctorado en Princeton, divulgó estos detalles, destacando el uso del modelo de DSA2, que integra DeepSeek Sparse Attention (DSA) y la nueva Native Sparse Attention (NSA). El modelo presenta una dimensión de cabeza de 512, Sparse MQA y SWA, con una capa MoE que comprende 384 expertos, de los cuales seis se activan por token. Además, se presentó una variante ligera, V4-Lite, con 285 mil millones de parámetros. Los detalles del entrenamiento incluyen el optimizador Muon, una longitud de contexto de preentrenamiento de 32K y una longitud de contexto final de 1M. El modelo está diseñado para aplicaciones solo de texto. A pesar de estas revelaciones, DeepSeek no ha comentado sobre la información compartida por Zhang, quien no está afiliado a la empresa.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.