Xiaomi, MiMo-V2.5 serisi API'leri için yenilikçi algoritmik stratejilerle önemli maliyet düşüşleri açıkladı. Xiaomi'nin büyük model ekibinin başı Luo Fuli, bu gelişmeleri detaylandırarak hibrit dikkat mimarisi ve hiyerarşik KV önbellek optimizasyonlarını vurguladı. Bu teknikler, artırılmış token önbellek kapasitesi ve örtüşen önbellek okumaları sayesinde önbellek isabet maliyetlerinde %99 ve önbellek maliyetlerinde %80 azalma sağladı. MiMo-V2.5-Pro modelinin verimliliği, 70 katmana sahip olmasına rağmen 10 katmanlı geleneksel bir modele eşdeğer dikkat hesaplamaları yapmasını sağlayan 1:7 katmanlar arası seyrelme oranıyla daha da artırıldı. Bu optimizasyon, Xiaomi'nin çıkarım maliyetlerini yarı yarıya düşürerek kârlılıktan ödün vermeden fiyat indirimi yapılmasına olanak tanıdı. Luo, fiyat savaşlarından ziyade stratejik maliyet yönetiminin önemini vurgulayarak, akıllı uygulamalara olan talebi artırmak için sürdürülebilir, düşük maliyetli çıkarım hizmetlerini savundu.