A Xiaomi anunciou reduções significativas de custos para suas APIs da série MiMo-V2.5, alcançadas por meio de estratégias algorítmicas inovadoras. Luo Fuli, chefe da equipe de grandes modelos da Xiaomi, detalhou esses avanços, destacando uma arquitetura híbrida de atenção e otimizações hierárquicas do cache KV. Essas técnicas resultaram em uma redução de 99% nos custos de acerto de cache e uma diminuição de 80% nos custos de cache, graças ao aumento da capacidade do cache de tokens e à sobreposição das leituras de cache. A eficiência do modelo MiMo-V2.5-Pro é ainda mais aprimorada por uma taxa de esparsidade intercamadas de 1:7, permitindo que ele realize cálculos de atenção equivalentes a um modelo tradicional de 10 camadas, apesar de possuir 70 camadas. Essa otimização reduziu pela metade os custos de inferência da Xiaomi, possibilitando uma redução de preço sem sacrificar a lucratividade. Luo enfatizou a importância da gestão estratégica de custos em vez de guerras de preços, defendendo serviços de inferência sustentáveis e de baixo custo para aumentar a demanda por aplicações inteligentes.