MiniMax AI는 2,300억 개 매개변수를 가진 모델 M2.7의 성능 테스트 결과를 발표하며 다양한 하드웨어 구성에서의 추론 속도를 공개했습니다. Unsloth의 UD-IQ3_XXS(80GB) 양자화 버전을 사용한 이 모델은 네 대의 RTX 4090(96GB) GPU에서 초당 71.52 토큰(tok/s)의 추론 속도와 1045밀리초의 첫 토큰 처리 시간(TTFT)을 기록했습니다. 네 대의 RTX 5090(128GB) GPU에서는 성능이 향상되어 초당 120.54 토큰과 725밀리초의 TTFT를 달성했습니다. 또한 단일 RTX PRO 6000(96GB) GPU는 초당 118.74 토큰과 765밀리초의 TTFT를 기록했습니다. DGX 시스템에 대한 테스트도 진행되었으나 구체적인 결과는 공개되지 않았습니다.