O DeepSeek V4 demonstrou paridade de desempenho nos NPUs Huawei Ascend e GPUs NVIDIA, dissipando rumores de atrasos na adaptação. O relatório técnico do V4 destaca que o Esquema de Particionamento de Especialistas Granular Fino foi implementado com sucesso, alcançando uma aceleração de 1,50x a 1,73x para cargas de trabalho padrão de inferência e até 1,96x em cenários sensíveis à latência. A equipe também tornou de código aberto a versão CUDA do kernel MegaMoE como parte do DeepGEMM, confirmando que o V4 mantém eficiência próxima à teórica em ambas as plataformas sem perda de desempenho.