Xiaomis MiMo-V2.5 Modell senkt Kosten mit fortschrittlicher KI

Xiaomi hat erhebliche Kostensenkungen für seine MiMo-V2.5-Serien-APIs angekündigt, die durch innovative algorithmische Strategien erreicht wurden. Luo Fuli, Leiter des großen Modellteams von Xiaomi, erläuterte diese Fortschritte und hob eine hybride Aufmerksamkeitsarchitektur sowie hierarchische KV-Cache-Optimierungen hervor. Diese Techniken führten zu einer Reduzierung der Cache-Hit-Kosten um 99 % und einer Verringerung der Cache-Kosten um 80 %, dank einer erhöhten Token-Cache-Kapazität und überlappenden Cache-Lesevorgängen. Die Effizienz des MiMo-V2.5-Pro-Modells wird durch ein Inter-Layer-Sparsamkeitsverhältnis von 1:7 weiter verbessert, was ihm ermöglicht, Aufmerksamkeitsberechnungen durchzuführen, die einem traditionellen 10-Schicht-Modell entsprechen, obwohl es 70 Schichten hat. Diese Optimierung hat die Inferenzkosten von Xiaomi halbiert und ermöglicht eine Preissenkung, ohne die Rentabilität zu beeinträchtigen. Luo betonte die Bedeutung eines strategischen Kostenmanagements gegenüber Preiskämpfen und plädierte für nachhaltige, kostengünstige Inferenzdienste, um die Nachfrage nach intelligenten Anwendungen zu steigern.

Das könnte Ihnen auch gefallen