DeepSeek V4モデルカードが主要要素を確認、エングラムは省略

DeepSeekのV4モデルカードは、TileKernelsライブラリのオープンソース化に伴い、そのアーキテクチャの3つのコアコンポーネントを確認しました。モデルは、マニホールド制約ハイパーコネクション（mHC）、Top-kエキスパートルーティングを備えたミクスチャーオブエキスパーツ（MoE）アーキテクチャ、および重み保存のためのFP4+FP8混合精度を採用しています。これらの要素はTileKernelsライブラリから正確に推測されました。しかし、モデルカードには以前に推測されていたが未確認のEngram条件付きメモリモジュールについては言及されていません。さらに、カードはTileKernelsでカバーされていない新機能を導入しており、ハイブリッドアテンション機構（CSA + HCA）を含み、これにより長文コンテキストの効率が大幅に向上し、推論のFLOPsを27％、KVキャッシュをV3.2の100万未満のコンテキストの10％に削減しています。トレーニングプロセスでは現在Muonオプティマイザーを使用しています。

​​こちらもおすすめ​​

こちらもおすすめ