DeepSeek V4: параметры 1.6T, раскрыта архитектура

Технические характеристики DeepSeek V4 были раскрыты, демонстрируя модель с 1,6 триллиона параметров и сложной архитектурой. Аспирант Принстона Ифан Чжан сообщил эти детали, подчеркнув использование моделью DSA2, которая интегрирует DeepSeek Sparse Attention (DSA) и новую Native Sparse Attention (NSA). Модель имеет размер головы 512, Sparse MQA и SWA, а также слой MoE, состоящий из 384 экспертов, из которых шесть активируются на каждый токен. Кроме того, была представлена облегчённая версия V4-Lite с 285 миллиардами параметров. Особенности обучения включают оптимизатор Muon, длину контекста предварительного обучения 32K и конечную длину контекста 1M. Модель предназначена для работы только с текстом. Несмотря на эти раскрытия, DeepSeek не прокомментировала информацию, предоставленную Чжаном, который не связан с компанией.