DeepSeek V4は、Huawei Ascend NPUおよびNVIDIA GPUでの性能が同等であることを示し、適応遅延の噂を払拭しました。V4の技術報告書では、微細な専門家分割スキームが成功裏に実装され、標準的な推論ワークロードで1.50倍から1.73倍の加速を達成し、レイテンシに敏感なシナリオでは最大1.96倍の加速を実現していることが強調されています。チームはまた、DeepGEMMの一部としてMegaMoEカーネルのCUDA版をオープンソース化し、V4が両プラットフォームで理論上ほぼ最大の効率を維持し、性能低下がないことを確認しました。