Xiaomi a annoncé des réductions de coûts significatives pour ses API de la série MiMo-V2.5, obtenues grâce à des stratégies algorithmiques innovantes. Luo Fuli, responsable de l'équipe des grands modèles chez Xiaomi, a détaillé ces avancées, mettant en avant une architecture d'attention hybride et des optimisations hiérarchiques du cache KV. Ces techniques ont permis une réduction de 99 % des coûts liés aux accès au cache et une diminution de 80 % des coûts de cache, grâce à une capacité accrue du cache de tokens et à des lectures de cache superposées.
L'efficacité du modèle MiMo-V2.5-Pro est en outre améliorée par un ratio de parcimonie inter-couches de 1:7, lui permettant d'effectuer des calculs d'attention équivalents à ceux d'un modèle traditionnel à 10 couches, malgré ses 70 couches. Cette optimisation a réduit de moitié les coûts d'inférence de Xiaomi, permettant une baisse des prix sans compromettre la rentabilité. Luo a souligné l'importance d'une gestion stratégique des coûts plutôt que des guerres de prix, prônant des services d'inférence durables et à faible coût pour stimuler la demande d'applications intelligentes.
Le modèle MiMo-V2.5 de Xiaomi réduit les coûts grâce à un calcul d'attention avancé
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
