MiniMax AI Revela Velocidade de Inferência do Modelo M2.7 em Diversas GPUs

A MiniMax AI divulgou os resultados dos testes de desempenho de seu modelo com 230 bilhões de parâmetros, M2.7, mostrando velocidades de inferência em diferentes configurações de hardware. Usando a versão quantizada UD-IQ3_XXS (80GB) da Unsloth, o modelo alcançou uma velocidade de inferência de 71,52 tokens por segundo (tok/s) com um tempo para o primeiro token (TTFT) de 1045 milissegundos em quatro GPUs RTX 4090 (96GB). O desempenho melhorou em quatro GPUs RTX 5090 (128GB), atingindo 120,54 tok/s com um TTFT de 725 ms. Além disso, uma única GPU RTX PRO 6000 (96GB) registrou uma velocidade de 118,74 tok/s com um TTFT de 765 ms. Testes em sistemas DGX também foram realizados, embora os resultados específicos não tenham sido divulgados.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.