DeepSeek V4 ha demostrado paridad de rendimiento en NPUs Huawei Ascend y GPUs NVIDIA, disipando rumores sobre retrasos en la adaptación. El informe técnico de la versión V4 destaca que el Esquema de Partición de Expertos de Grano Fino ha sido implementado con éxito, logrando una aceleración de 1.50x a 1.73x para cargas de trabajo estándar de inferencia y hasta 1.96x en escenarios sensibles a la latencia. El equipo también ha liberado el código abierto de la versión CUDA del núcleo MegaMoE como parte de DeepGEMM, confirmando que V4 mantiene una eficiencia cercana a la teórica en ambas plataformas sin pérdida de rendimiento.