MiniMax AIは、2300億パラメータモデル「M2.7」の性能テスト結果を発表し、異なるハードウェア構成における推論速度を示しました。UnslothのUD-IQ3_XXS(80GB)量子化バージョンを使用し、4台のRTX 4090(96GB)GPUで1秒あたり71.52トークン(tok/s)の推論速度と、最初のトークン生成までの時間(TTFT)が1045ミリ秒を達成しました。4台のRTX 5090(128GB)GPUでは性能が向上し、120.54 tok/sの速度とTTFT 725ミリ秒を記録しました。さらに、単一のRTX PRO 6000(96GB)GPUでは118.74 tok/sの速度とTTFT 765ミリ秒を記録しました。DGXシステムでのテストも実施されましたが、具体的な結果は公開されていません。