MiniMax AIは、2300億パラメータモデル「M2.7」の性能テスト結果を発表し、異なるハードウェア構成における推論速度を示しました。UnslothのUD-IQ3_XXS(80GB)量子化バージョンを使用し、4台のRTX 4090(96GB)GPUで1秒あたり71.52トークン(tok/s)の推論速度と、最初のトークン生成までの時間(TTFT)が1045ミリ秒を達成しました。4台のRTX 5090(128GB)GPUでは性能が向上し、120.54 tok/sの速度とTTFT 725ミリ秒を記録しました。さらに、単一のRTX PRO 6000(96GB)GPUでは118.74 tok/sの速度とTTFT 765ミリ秒を記録しました。DGXシステムでのテストも実施されましたが、具体的な結果は公開されていません。
MiniMax AI、さまざまなGPUでのM2.7モデル推論速度を公開
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
