Xiaomi объявила о значительном снижении затрат на API серии MiMo-V2.5, достигнутом благодаря инновационным алгоритмическим стратегиям. Ло Фули, руководитель команды Xiaomi по большим моделям, подробно рассказал об этих достижениях, выделив гибридную архитектуру внимания и иерархические оптимизации кеша KV. Эти методы позволили сократить затраты на попадание в кеш на 99% и снизить общие затраты на кеш на 80% благодаря увеличенной емкости кеша токенов и перекрывающемуся чтению кеша. Эффективность модели MiMo-V2.5-Pro дополнительно повышена за счет коэффициента разреженности между слоями 1:7, что позволяет ей выполнять вычисления внимания, эквивалентные 10-слойной традиционной модели, несмотря на наличие 70 слоев. Эта оптимизация сократила затраты Xiaomi на вывод вдвое, что позволило снизить цену без ущерба для прибыльности. Ло подчеркнул важность стратегического управления затратами вместо ценовых войн, выступая за устойчивые и недорогие сервисы вывода, чтобы стимулировать спрос на интеллектуальные приложения.