DeepSeek V4 продемонстрировал равную производительность на нейропроцессорах Huawei Ascend и графических процессорах NVIDIA, опровергая слухи о задержках с адаптацией. В техническом отчёте по версии V4 отмечается успешная реализация схемы тонконастройного разбиения экспертов, обеспечившая ускорение от 1,50 до 1,73 раза для стандартных задач инференса и до 1,96 раза в сценариях, чувствительных к задержкам. Команда также опубликовала исходный код CUDA-версии ядра MegaMoE в рамках DeepGEMM, подтвердив, что V4 сохраняет близкую к теоретической эффективность на обеих платформах без потери производительности.