ИИ увеличивает эффективность в 10 раз с новым сжатием модели

Технологии искусственного интеллекта достигли значительного рубежа благодаря достижениям в области сжатия моделей и квантизации, обеспечив до 10-кратного увеличения скорости вывода на CPU и уменьшения размера моделей, согласно статье DartQuant, опубликованной в ноябре 2025 года. Эти прорывы позволяют корпоративному ИИ масштабироваться более эффективно без значительных вычислительных ресурсов, при этом сохраняя минимальные потери точности. Edge AI также пережил революцию в скорости: вывод на устройстве теперь способен обрабатывать более 100 токенов в секунду для предварительной загрузки и до 70 токенов в секунду для декодирования на коммерческих мобильных устройствах, согласно бенчмаркам 2024-2025 годов. Это развитие приносит возможности корпоративного ИИ на мобильные устройства. Кроме того, синергия между аппаратным и программным обеспечением, включая Dynamo и TensorRT-LLM от NVIDIA, а также нейронные процессорные блоки, позволила моделям, таким как Llama и Nemotron, достигать скорости вывода в 2,1–3,0 раза выше при снижении требований к ресурсам, как сообщили NVIDIA и Red Hat в 2025 году.