DeepSeekのV4モデルカードは、TileKernelsライブラリのオープンソース化に伴い、そのアーキテクチャの3つのコアコンポーネントを確認しました。モデルは、マニホールド制約ハイパーコネクション(mHC)、Top-kエキスパートルーティングを備えたミクスチャーオブエキスパーツ(MoE)アーキテクチャ、および重み保存のためのFP4+FP8混合精度を採用しています。これらの要素はTileKernelsライブラリから正確に推測されました。
しかし、モデルカードには以前に推測されていたが未確認のEngram条件付きメモリモジュールについては言及されていません。さらに、カードはTileKernelsでカバーされていない新機能を導入しており、ハイブリッドアテンション機構(CSA + HCA)を含み、これにより長文コンテキストの効率が大幅に向上し、推論のFLOPsを27%、KVキャッシュをV3.2の100万未満のコンテキストの10%に削減しています。トレーニングプロセスでは現在Muonオプティマイザーを使用しています。
DeepSeek V4モデルカードが主要コンポーネントを確認、エングラムを省略
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
