DeepSeek V4の技術仕様が明らかになり、1.6兆パラメータを持つ高度なアーキテクチャのモデルが紹介されました。プリンストン大学の博士課程学生である張一凡(Yifan Zhang)がこれらの詳細を公開し、DeepSeek Sparse Attention(DSA)と新しいNative Sparse Attention(NSA)を統合したDSA2の使用を強調しました。このモデルはヘッド次元が512、Sparse MQA、SWAを特徴とし、384人のエキスパートで構成されるMoEレイヤーを備え、そのうち6人がトークンごとにアクティブになります。 さらに、2850億パラメータを持つ軽量版のV4-Liteも発表されました。トレーニングの詳細にはMuonオプティマイザー、事前学習のコンテキスト長32K、最終コンテキスト長1Mが含まれます。このモデルはテキスト専用の用途を想定しています。これらの情報公開にもかかわらず、DeepSeekは同社に所属しない張氏が共有した情報についてコメントしていません。