SonicMoE anunciou um marco significativo de desempenho, alcançando o pico de throughput nas GPUs NVIDIA Blackwell a partir de 23 de abril (UTC+8). O desempenho em TFLOPS do modelo nas passagens forward e backward supera a linha de base DeepGEMM em 54% e 35%, respectivamente. Além disso, excede o exemplo oficial do Triton em 21% nos TFLOPS da passagem forward. SonicMoE também mantém uma pegada mínima de memória de ativação, comparável a modelos densos, marcando um avanço notável na eficiência das GPUs.