SonicMoE đã công bố một cột mốc hiệu suất quan trọng, đạt được thông lượng đỉnh trên GPU NVIDIA Blackwell kể từ ngày 23 tháng 4 (UTC+8). Hiệu suất TFLOPS của mô hình trong quá trình truyền tiến và truyền ngược lần lượt vượt qua mức chuẩn DeepGEMM là 54% và 35%. Ngoài ra, nó còn vượt qua ví dụ chính thức của Triton về TFLOPS trong quá trình truyền tiến lên đến 21%. SonicMoE cũng duy trì mức sử dụng bộ nhớ kích hoạt tối thiểu, tương đương với các mô hình dày đặc, đánh dấu một bước tiến đáng kể trong hiệu quả sử dụng GPU.