Thẻ mô hình V4 của DeepSeek đã xác nhận ba thành phần cốt lõi của kiến trúc của nó, sau khi thư viện TileKernels được mở mã nguồn. Mô hình sử dụng Manifold-Constrained Hyper-Connections (mHC), kiến trúc hỗn hợp chuyên gia (MoE) với định tuyến chuyên gia Top-k, và độ chính xác hỗn hợp FP4+FP8 để lưu trữ trọng số. Những yếu tố này đã được suy luận chính xác từ thư viện TileKernels.
Tuy nhiên, thẻ mô hình không đề cập đến mô-đun bộ nhớ điều kiện Engram, trước đây từng được suy đoán nhưng vẫn chưa được xác nhận. Ngoài ra, thẻ còn giới thiệu các tính năng mới không được đề cập trong TileKernels, bao gồm cơ chế chú ý lai (CSA + HCA) giúp cải thiện đáng kể hiệu quả trong ngữ cảnh dài, giảm FLOPs suy luận xuống còn 27% và bộ nhớ đệm KV còn 10% so với V3.2 trong ngữ cảnh dưới 1 triệu. Quá trình huấn luyện hiện sử dụng bộ tối ưu Muon.
Thẻ Mô Hình DeepSeek V4 Xác Nhận Các Thành Phần Chính, Bỏ Qua Engram
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
