Xiaomiは、革新的なアルゴリズム戦略により実現したMiMo-V2.5シリーズAPIの大幅なコスト削減を発表しました。Xiaomiの大規模モデルチームの責任者である羅福利(Luo Fuli)は、これらの進展について詳細を説明し、ハイブリッドアテンションアーキテクチャと階層的なKVキャッシュ最適化を強調しました。これらの技術により、トークンキャッシュ容量の増加とキャッシュ読み取りの重複により、キャッシュヒットコストが99%削減され、キャッシュコストが80%減少しました。
MiMo-V2.5-Proモデルの効率はさらに、1:7の層間スパース比によって向上しており、70層を持ちながらも10層の従来モデルに相当するアテンション計算を実行できます。この最適化により、Xiaomiの推論コストは半減し、収益性を損なうことなく価格を引き下げることが可能になりました。羅は価格競争よりも戦略的なコスト管理の重要性を強調し、持続可能で低コストの推論サービスを推進して、インテリジェントアプリケーションの需要を高めることを提唱しました。
XiaomiのMiMo-V2.5モデル、高度なアテンション計算でコスト削減
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
