DeepSeek V4の技術仕様が明らかになり、1.6兆パラメータを持つ高度なアーキテクチャのモデルが紹介されました。プリンストン大学の博士課程学生である張一凡(Yifan Zhang)がこれらの詳細を公開し、DeepSeek Sparse Attention(DSA)と新しいNative Sparse Attention(NSA)を統合したDSA2の使用を強調しました。このモデルはヘッド次元が512、Sparse MQA、SWAを特徴とし、384人のエキスパートで構成されるMoEレイヤーを備え、そのうち6人がトークンごとにアクティブになります。
さらに、2850億パラメータを持つ軽量版のV4-Liteも発表されました。トレーニングの詳細にはMuonオプティマイザー、事前学習のコンテキスト長32K、最終コンテキスト長1Mが含まれます。このモデルはテキスト専用の用途を想定しています。これらの情報公開にもかかわらず、DeepSeekは同社に所属しない張氏が共有した情報についてコメントしていません。
DeepSeek V4 発表:1.6兆パラメータと高度なアーキテクチャ
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
