Xiaomi a annoncé des réductions de coûts significatives pour ses API de la série MiMo-V2.5, obtenues grâce à des stratégies algorithmiques innovantes. Luo Fuli, responsable de l'équipe des grands modèles chez Xiaomi, a détaillé ces avancées, mettant en avant une architecture d'attention hybride et des optimisations hiérarchiques du cache KV. Ces techniques ont permis une réduction de 99 % des coûts liés aux accès au cache et une diminution de 80 % des coûts de cache, grâce à une capacité accrue du cache de tokens et à des lectures de cache superposées. L'efficacité du modèle MiMo-V2.5-Pro est en outre améliorée par un ratio de parcimonie inter-couches de 1:7, lui permettant d'effectuer des calculs d'attention équivalents à ceux d'un modèle traditionnel à 10 couches, malgré ses 70 couches. Cette optimisation a réduit de moitié les coûts d'inférence de Xiaomi, permettant une baisse des prix sans compromettre la rentabilité. Luo a souligné l'importance d'une gestion stratégique des coûts plutôt que des guerres de prix, prônant des services d'inférence durables et à faible coût pour stimuler la demande d'applications intelligentes.