MiniMax AI Revela la Velocidad de Inferencia del Modelo M2.7 en Varias GPUs

MiniMax AI ha publicado los resultados de las pruebas de rendimiento de su modelo de 230 mil millones de parámetros, M2.7, mostrando velocidades de inferencia en diferentes configuraciones de hardware. Utilizando la versión cuantificada UD-IQ3_XXS (80GB) de Unsloth, el modelo alcanzó una velocidad de inferencia de 71.52 tokens por segundo (tok/s) con un tiempo hasta el primer token (TTFT) de 1045 milisegundos en cuatro GPUs RTX 4090 (96GB). El rendimiento mejoró en cuatro GPUs RTX 5090 (128GB), alcanzando 120.54 tok/s con un TTFT de 725 ms. Además, una sola GPU RTX PRO 6000 (96GB) registró una velocidad de 118.74 tok/s con un TTFT de 765 ms. También se realizaron pruebas en sistemas DGX, aunque no se divulgaron resultados específicos.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.