A MiniMax AI divulgou os resultados dos testes de desempenho de seu modelo com 230 bilhões de parâmetros, M2.7, mostrando velocidades de inferência em diferentes configurações de hardware. Usando a versão quantizada UD-IQ3_XXS (80GB) da Unsloth, o modelo alcançou uma velocidade de inferência de 71,52 tokens por segundo (tok/s) com um tempo para o primeiro token (TTFT) de 1045 milissegundos em quatro GPUs RTX 4090 (96GB). O desempenho melhorou em quatro GPUs RTX 5090 (128GB), atingindo 120,54 tok/s com um TTFT de 725 ms. Além disso, uma única GPU RTX PRO 6000 (96GB) registrou uma velocidade de 118,74 tok/s com um TTFT de 765 ms. Testes em sistemas DGX também foram realizados, embora os resultados específicos não tenham sido divulgados.
MiniMax AI Revela Velocidade de Inferência do Modelo M2.7 em Diversas GPUs
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
