MiniMax AI、さまざまなGPUでのM2.7モデル推論速度を公開

MiniMax AIは、2300億パラメータモデル「M2.7」の性能テスト結果を発表し、異なるハードウェア構成における推論速度を示しました。UnslothのUD-IQ3_XXS（80GB）量子化バージョンを使用し、4台のRTX 4090（96GB）GPUで1秒あたり71.52トークン（tok/s）の推論速度と、最初のトークン生成までの時間（TTFT）が1045ミリ秒を達成しました。4台のRTX 5090（128GB）GPUでは性能が向上し、120.54 tok/sの速度とTTFT 725ミリ秒を記録しました。さらに、単一のRTX PRO 6000（96GB）GPUでは118.74 tok/sの速度とTTFT 765ミリ秒を記録しました。DGXシステムでのテストも実施されましたが、具体的な結果は公開されていません。

出典: 原文を表示

免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。