DeepSeek V4'ün teknik özellikleri ortaya çıktı ve 1,6 trilyon parametreye sahip sofistike bir mimari sergileyen bir model tanıtıldı. Princeton doktora öğrencisi Yifan Zhang, bu detayları açıkladı ve modelin DeepSeek Seyrek Dikkat (DSA) ile yeni Yerel Seyrek Dikkat (NSA) bileşenlerini entegre eden DSA2 kullanımını vurguladı. Model, 512 başlık boyutu, Seyrek MQA ve SWA özelliklerine sahip olup, her biri token başına altı aktif uzman içeren 384 uzmanlı bir MoE katmanı barındırıyor. Ayrıca, 285 milyar parametreye sahip hafif bir varyant olan V4-Lite tanıtıldı. Eğitim detayları arasında Muon optimizatörü, 32K ön eğitim bağlam uzunluğu ve 1M son bağlam uzunluğu yer alıyor. Model yalnızca metin uygulamaları için tasarlandı. Bu açıklamalara rağmen, DeepSeek şirketle bağlantısı olmayan Zhang tarafından paylaşılan bilgiler hakkında yorum yapmadı.