MiniMax AI, 다양한 GPU에서 M2.7 모델 추론 속도 공개

MiniMax AI는 2,300억 개 매개변수를 가진 모델 M2.7의 성능 테스트 결과를 발표하며 다양한 하드웨어 구성에서의 추론 속도를 공개했습니다. Unsloth의 UD-IQ3_XXS(80GB) 양자화 버전을 사용한 이 모델은 네 대의 RTX 4090(96GB) GPU에서 초당 71.52 토큰(tok/s)의 추론 속도와 1045밀리초의 첫 토큰 처리 시간(TTFT)을 기록했습니다. 네 대의 RTX 5090(128GB) GPU에서는 성능이 향상되어 초당 120.54 토큰과 725밀리초의 TTFT를 달성했습니다. 또한 단일 RTX PRO 6000(96GB) GPU는 초당 118.74 토큰과 765밀리초의 TTFT를 기록했습니다. DGX 시스템에 대한 테스트도 진행되었으나 구체적인 결과는 공개되지 않았습니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.