DeepSeek V4: ключевые компоненты, без Engram

В карточке модели DeepSeek V4 подтверждены три основных компонента её архитектуры после открытия исходного кода библиотеки TileKernels. Модель использует гиперсвязи с ограничением многообразия (mHC), архитектуру смеси экспертов (MoE) с маршрутизацией Top-k экспертов и смешанную точность FP4+FP8 для хранения весов. Эти элементы были точно выведены из библиотеки TileKernels. Однако в карточке модели не упоминается условный модуль памяти Engram, который ранее предполагался, но остаётся неподтверждённым. Кроме того, в карточке представлены новые функции, не охваченные TileKernels, включая гибридный механизм внимания (CSA + HCA), который значительно повышает эффективность работы с длинным контекстом, снижая количество операций вывода (FLOPs) до 27% и размер кеша KV до 10% от показателей V3.2 при контексте менее 1 миллиона. Процесс обучения теперь использует оптимизатор Muon.

Вам также может понравиться