Xiaomi объявила о значительном снижении затрат на API серии MiMo-V2.5, достигнутом благодаря инновационным алгоритмическим стратегиям. Ло Фули, руководитель команды Xiaomi по большим моделям, подробно рассказал об этих достижениях, выделив гибридную архитектуру внимания и иерархические оптимизации кеша KV. Эти методы позволили сократить затраты на попадание в кеш на 99% и снизить общие затраты на кеш на 80% благодаря увеличенной емкости кеша токенов и перекрывающемуся чтению кеша.
Эффективность модели MiMo-V2.5-Pro дополнительно повышена за счет коэффициента разреженности между слоями 1:7, что позволяет ей выполнять вычисления внимания, эквивалентные 10-слойной традиционной модели, несмотря на наличие 70 слоев. Эта оптимизация сократила затраты Xiaomi на вывод вдвое, что позволило снизить цену без ущерба для прибыльности. Ло подчеркнул важность стратегического управления затратами вместо ценовых войн, выступая за устойчивые и недорогие сервисы вывода, чтобы стимулировать спрос на интеллектуальные приложения.
Модель MiMo-V2.5 от Xiaomi снижает затраты благодаря продвинутым вычислениям внимания
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
