DeepSeek V4 a démontré une performance équivalente sur les NPU Huawei Ascend et les GPU NVIDIA, dissipant ainsi les rumeurs de retards d'adaptation. Le rapport technique V4 souligne que le Schéma de Partition Fine-Grained Expert a été mis en œuvre avec succès, atteignant une accélération de 1,50x à 1,73x pour les charges de travail d'inférence standard et jusqu'à 1,96x dans les scénarios sensibles à la latence. L'équipe a également rendu open source la version CUDA du noyau MegaMoE dans le cadre de DeepGEMM, confirmant que la V4 maintient une efficacité proche de la théorie sur les deux plateformes sans perte de performance.