MiniMax AI опубликовала результаты тестирования производительности своей модели M2.7 с 230 миллиардами параметров, демонстрируя скорость вывода на различных аппаратных конфигурациях. Используя квантизированную версию Unsloth UD-IQ3_XXS (80 ГБ), модель достигла скорости вывода 71,52 токена в секунду (tok/s) с временем до первого токена (TTFT) 1045 миллисекунд на четырёх GPU RTX 4090 (96 ГБ). Производительность улучшилась на четырёх GPU RTX 5090 (128 ГБ), достигнув 120,54 tok/s с TTFT 725 мс. Кроме того, один GPU RTX PRO 6000 (96 ГБ) показал скорость 118,74 tok/s с TTFT 765 мс. Также были проведены тесты на системах DGX, однако конкретные результаты не были раскрыты.
MiniMax AI раскрывает скорость инференса модели M2.7 на различных GPU
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
