Результаты теста скорости вывода модели MiniMax AI M2.7

MiniMax AI опубликовала результаты тестирования производительности своей модели M2.7 с 230 миллиардами параметров, демонстрируя скорость вывода на различных аппаратных конфигурациях. Используя квантизированную версию Unsloth UD-IQ3_XXS (80 ГБ), модель достигла скорости вывода 71,52 токена в секунду (tok/s) с временем до первого токена (TTFT) 1045 миллисекунд на четырёх GPU RTX 4090 (96 ГБ). Производительность улучшилась на четырёх GPU RTX 5090 (128 ГБ), достигнув 120,54 tok/s с TTFT 725 мс. Кроме того, один GPU RTX PRO 6000 (96 ГБ) показал скорость 118,74 tok/s с TTFT 765 мс. Также были проведены тесты на системах DGX, однако конкретные результаты не были раскрыты.