Modelo MiMo-V2.5 de Xiaomi reduce costos con computación avanzada

Xiaomi ha anunciado reducciones significativas en los costos de sus APIs de la serie MiMo-V2.5, logradas mediante estrategias algorítmicas innovadoras. Luo Fuli, jefe del equipo de grandes modelos de Xiaomi, detalló estos avances, destacando una arquitectura de atención híbrida y optimizaciones jerárquicas de la caché KV. Estas técnicas han llevado a una reducción del 99 % en los costos de aciertos de caché y una disminución del 80 % en los costos de caché, gracias al aumento de la capacidad de caché de tokens y a la superposición de lecturas de caché. La eficiencia del modelo MiMo-V2.5-Pro se mejora aún más con una proporción de esparcimiento intercapas de 1:7, lo que le permite realizar cálculos de atención equivalentes a un modelo tradicional de 10 capas, a pesar de tener 70 capas. Esta optimización ha reducido a la mitad los costos de inferencia de Xiaomi, permitiendo una reducción de precios sin sacrificar la rentabilidad. Luo enfatizó la importancia de la gestión estratégica de costos sobre las guerras de precios, abogando por servicios de inferencia sostenibles y de bajo costo para impulsar la demanda de aplicaciones inteligentes.

También te podría gustar