MiniMax AI révèle la vitesse d'inférence du modèle M2.7 sur différentes GPU

MiniMax AI a publié les résultats des tests de performance de son modèle de 230 milliards de paramètres, M2.7, mettant en avant les vitesses d'inférence sur différentes configurations matérielles. En utilisant la version quantifiée UD-IQ3_XXS (80 Go) d'Unsloth, le modèle a atteint une vitesse d'inférence de 71,52 tokens par seconde (tok/s) avec un temps jusqu'au premier token (TTFT) de 1045 millisecondes sur quatre GPU RTX 4090 (96 Go). Les performances se sont améliorées sur quatre GPU RTX 5090 (128 Go), atteignant 120,54 tok/s avec un TTFT de 725 ms. De plus, un seul GPU RTX PRO 6000 (96 Go) a enregistré une vitesse de 118,74 tok/s avec un TTFT de 765 ms. Des tests ont également été réalisés sur des systèmes DGX, bien que les résultats spécifiques n'aient pas été divulgués.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.