MiniMax AI enthüllt M2.7 Modell-Inferenzgeschwindigkeit auf verschiedenen GPUs

MiniMax AI hat Leistungstestergebnisse für sein Modell mit 230 Milliarden Parametern, M2.7, veröffentlicht, die die Inferenzgeschwindigkeiten auf verschiedenen Hardwarekonfigurationen zeigen. Mit der quantisierten Version UD-IQ3_XXS (80 GB) von Unsloth erreichte das Modell eine Inferenzgeschwindigkeit von 71,52 Tokens pro Sekunde (tok/s) bei einer Zeit bis zum ersten Token (TTFT) von 1045 Millisekunden auf vier RTX 4090 (96 GB) GPUs. Die Leistung verbesserte sich auf vier RTX 5090 (128 GB) GPUs und erreichte 120,54 tok/s bei einem TTFT von 725 ms. Außerdem wurde auf einer einzelnen RTX PRO 6000 (96 GB) GPU eine Geschwindigkeit von 118,74 tok/s mit einem TTFT von 765 ms gemessen. Tests auf DGX-Systemen wurden ebenfalls durchgeführt, wobei jedoch keine spezifischen Ergebnisse bekannt gegeben wurden.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.