DeepSeek V4 Xác Nhận Thành Phần Chính, Bỏ Engram

Thẻ mô hình V4 của DeepSeek đã xác nhận ba thành phần cốt lõi của kiến trúc của nó, sau khi thư viện TileKernels được mở mã nguồn. Mô hình sử dụng Manifold-Constrained Hyper-Connections (mHC), kiến trúc hỗn hợp chuyên gia (MoE) với định tuyến chuyên gia Top-k, và độ chính xác hỗn hợp FP4+FP8 để lưu trữ trọng số. Những yếu tố này đã được suy luận chính xác từ thư viện TileKernels. Tuy nhiên, thẻ mô hình không đề cập đến mô-đun bộ nhớ điều kiện Engram, trước đây từng được suy đoán nhưng vẫn chưa được xác nhận. Ngoài ra, thẻ còn giới thiệu các tính năng mới không được đề cập trong TileKernels, bao gồm cơ chế chú ý lai (CSA + HCA) giúp cải thiện đáng kể hiệu quả trong ngữ cảnh dài, giảm FLOPs suy luận xuống còn 27% và bộ nhớ đệm KV còn 10% so với V3.2 trong ngữ cảnh dưới 1 triệu. Quá trình huấn luyện hiện sử dụng bộ tối ưu Muon.

Bạn cũng có thể thích