В карточке модели DeepSeek V4 подтверждены три основных компонента её архитектуры после открытия исходного кода библиотеки TileKernels. Модель использует гиперсвязи с ограничением многообразия (mHC), архитектуру смеси экспертов (MoE) с маршрутизацией Top-k экспертов и смешанную точность FP4+FP8 для хранения весов. Эти элементы были точно выведены из библиотеки TileKernels.
Однако в карточке модели не упоминается условный модуль памяти Engram, который ранее предполагался, но остаётся неподтверждённым. Кроме того, в карточке представлены новые функции, не охваченные TileKernels, включая гибридный механизм внимания (CSA + HCA), который значительно повышает эффективность работы с длинным контекстом, снижая количество операций вывода (FLOPs) до 27% и размер кеша KV до 10% от показателей V3.2 при контексте менее 1 миллиона. Процесс обучения теперь использует оптимизатор Muon.
Модель DeepSeek V4 подтверждает ключевые компоненты, исключая энграмму
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
