DeepSeek V4 Tanıtıldı: 1,6 Trilyon Parametre ve Gelişmiş Mimari

DeepSeek V4'ün teknik özellikleri ortaya çıktı ve 1,6 trilyon parametreye sahip sofistike bir mimari sergileyen bir model tanıtıldı. Princeton doktora öğrencisi Yifan Zhang, bu detayları açıkladı ve modelin DeepSeek Seyrek Dikkat (DSA) ile yeni Yerel Seyrek Dikkat (NSA) bileşenlerini entegre eden DSA2 kullanımını vurguladı. Model, 512 başlık boyutu, Seyrek MQA ve SWA özelliklerine sahip olup, her biri token başına altı aktif uzman içeren 384 uzmanlı bir MoE katmanı barındırıyor. Ayrıca, 285 milyar parametreye sahip hafif bir varyant olan V4-Lite tanıtıldı. Eğitim detayları arasında Muon optimizatörü, 32K ön eğitim bağlam uzunluğu ve 1M son bağlam uzunluğu yer alıyor. Model yalnızca metin uygulamaları için tasarlandı. Bu açıklamalara rağmen, DeepSeek şirketle bağlantısı olmayan Zhang tarafından paylaşılan bilgiler hakkında yorum yapmadı.

Kaynak: Orijinalini Göster

Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.