SonicMoE объявила о значительном достижении в производительности, достигнув пикового пропускного уровня на графических процессорах NVIDIA Blackwell по состоянию на 23 апреля (UTC+8). Производительность модели в прямом и обратном проходах в TFLOPS превышает базовый уровень DeepGEMM на 54% и 35% соответственно. Кроме того, она превосходит официальный пример Triton на 21% по производительности в прямом проходе в TFLOPS. SonicMoE также поддерживает минимальный объем памяти для активаций, сопоставимый с плотными моделями, что является заметным прогрессом в эффективности использования GPU.