DeepSeek V4, Huawei Ascend NPU'lar ve NVIDIA GPU'lar üzerinde performans eşitliği göstererek uyum gecikmeleriyle ilgili söylentileri ortadan kaldırdı. V4 teknik raporu, İnce Taneli Uzman Bölümlendirme Şeması'nın başarıyla uygulandığını vurguluyor; standart çıkarım iş yüklerinde 1,50x ila 1,73x hızlanma ve gecikmeye duyarlı senaryolarda ise 1,96x'e kadar hız artışı sağlandı. Ekip ayrıca DeepGEMM'in bir parçası olarak MegaMoE çekirdeğinin CUDA sürümünü açık kaynak yaptı ve V4'ün her iki platformda da performans kaybı olmadan teorik verimliliğe yakın bir performans sergilediğini doğruladı.