Технические характеристики DeepSeek V4 были раскрыты, демонстрируя модель с 1,6 триллиона параметров и сложной архитектурой. Аспирант Принстона Ифан Чжан сообщил эти детали, подчеркнув использование моделью DSA2, которая интегрирует DeepSeek Sparse Attention (DSA) и новую Native Sparse Attention (NSA). Модель имеет размер головы 512, Sparse MQA и SWA, а также слой MoE, состоящий из 384 экспертов, из которых шесть активируются на каждый токен.
Кроме того, была представлена облегчённая версия V4-Lite с 285 миллиардами параметров. Особенности обучения включают оптимизатор Muon, длину контекста предварительного обучения 32K и конечную длину контекста 1M. Модель предназначена для работы только с текстом. Несмотря на эти раскрытия, DeepSeek не прокомментировала информацию, предоставленную Чжаном, который не связан с компанией.
Представлен DeepSeek V4: 1,6 триллиона параметров и усовершенствованная архитектура
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
