Thông số kỹ thuật của DeepSeek V4 đã được tiết lộ, giới thiệu một mô hình với 1,6 nghìn tỷ tham số và kiến trúc tinh vi. Nghiên cứu sinh tiến sĩ tại Princeton, Yifan Zhang, đã công bố những chi tiết này, nhấn mạnh việc mô hình sử dụng DSA2, tích hợp DeepSeek Sparse Attention (DSA) và Native Sparse Attention (NSA) mới. Mô hình có kích thước đầu là 512, Sparse MQA và SWA, với một lớp MoE gồm 384 chuyên gia, trong đó sáu chuyên gia được kích hoạt cho mỗi token.
Ngoài ra, một biến thể nhẹ hơn, V4-Lite, với 285 tỷ tham số, cũng được giới thiệu. Các chi tiết về đào tạo bao gồm bộ tối ưu Muon, độ dài ngữ cảnh tiền huấn luyện là 32K và độ dài ngữ cảnh cuối cùng là 1 triệu. Mô hình được thiết kế chỉ dành cho các ứng dụng văn bản. Mặc dù có những tiết lộ này, DeepSeek vẫn chưa bình luận về thông tin do Zhang chia sẻ, người không thuộc công ty.
DeepSeek V4 Ra Mắt: 1,6 Nghìn Tỷ Tham Số và Kiến Trúc Tiên Tiến
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
