DeepSeek V4: Thông số 1.6T, Kiến trúc Tiên tiến

Thông số kỹ thuật của DeepSeek V4 đã được tiết lộ, giới thiệu một mô hình với 1,6 nghìn tỷ tham số và kiến trúc tinh vi. Nghiên cứu sinh tiến sĩ tại Princeton, Yifan Zhang, đã công bố những chi tiết này, nhấn mạnh việc mô hình sử dụng DSA2, tích hợp DeepSeek Sparse Attention (DSA) và Native Sparse Attention (NSA) mới. Mô hình có kích thước đầu là 512, Sparse MQA và SWA, với một lớp MoE gồm 384 chuyên gia, trong đó sáu chuyên gia được kích hoạt cho mỗi token. Ngoài ra, một biến thể nhẹ hơn, V4-Lite, với 285 tỷ tham số, cũng được giới thiệu. Các chi tiết về đào tạo bao gồm bộ tối ưu Muon, độ dài ngữ cảnh tiền huấn luyện là 32K và độ dài ngữ cảnh cuối cùng là 1 triệu. Mô hình được thiết kế chỉ dành cho các ứng dụng văn bản. Mặc dù có những tiết lộ này, DeepSeek vẫn chưa bình luận về thông tin do Zhang chia sẻ, người không thuộc công ty.