Xiaomiは、革新的なアルゴリズム戦略により実現したMiMo-V2.5シリーズAPIの大幅なコスト削減を発表しました。Xiaomiの大規模モデルチームの責任者である羅福利(Luo Fuli)は、これらの進展について詳細を説明し、ハイブリッドアテンションアーキテクチャと階層的なKVキャッシュ最適化を強調しました。これらの技術により、トークンキャッシュ容量の増加とキャッシュ読み取りの重複により、キャッシュヒットコストが99%削減され、キャッシュコストが80%減少しました。 MiMo-V2.5-Proモデルの効率はさらに、1:7の層間スパース比によって向上しており、70層を持ちながらも10層の従来モデルに相当するアテンション計算を実行できます。この最適化により、Xiaomiの推論コストは半減し、収益性を損なうことなく価格を引き下げることが可能になりました。羅は価格競争よりも戦略的なコスト管理の重要性を強調し、持続可能で低コストの推論サービスを推進して、インテリジェントアプリケーションの需要を高めることを提唱しました。