Технологии искусственного интеллекта достигли значительного рубежа благодаря достижениям в области сжатия моделей и квантизации, обеспечив до 10-кратного увеличения скорости вывода на CPU и уменьшения размера моделей, согласно статье DartQuant, опубликованной в ноябре 2025 года. Эти прорывы позволяют корпоративному ИИ масштабироваться более эффективно без значительных вычислительных ресурсов, при этом сохраняя минимальные потери точности.
Edge AI также пережил революцию в скорости: вывод на устройстве теперь способен обрабатывать более 100 токенов в секунду для предварительной загрузки и до 70 токенов в секунду для декодирования на коммерческих мобильных устройствах, согласно бенчмаркам 2024-2025 годов. Это развитие приносит возможности корпоративного ИИ на мобильные устройства.
Кроме того, синергия между аппаратным и программным обеспечением, включая Dynamo и TensorRT-LLM от NVIDIA, а также нейронные процессорные блоки, позволила моделям, таким как Llama и Nemotron, достигать скорости вывода в 2,1–3,0 раза выше при снижении требований к ресурсам, как сообщили NVIDIA и Red Hat в 2025 году.
ИИ достигает 10-кратного повышения эффективности с новыми методами сжатия моделей
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
