A MiniMax AI divulgou os resultados dos testes de desempenho de seu modelo com 230 bilhões de parâmetros, M2.7, mostrando velocidades de inferência em diferentes configurações de hardware. Usando a versão quantizada UD-IQ3_XXS (80GB) da Unsloth, o modelo alcançou uma velocidade de inferência de 71,52 tokens por segundo (tok/s) com um tempo para o primeiro token (TTFT) de 1045 milissegundos em quatro GPUs RTX 4090 (96GB). O desempenho melhorou em quatro GPUs RTX 5090 (128GB), atingindo 120,54 tok/s com um TTFT de 725 ms. Além disso, uma única GPU RTX PRO 6000 (96GB) registrou uma velocidade de 118,74 tok/s com um TTFT de 765 ms. Testes em sistemas DGX também foram realizados, embora os resultados específicos não tenham sido divulgados.