MetaEraは、NVIDIAのH100やH20などのHopperシリーズGPU上でのモデル推論を高速化するために設計されたオープンソースのツールセット「FlashKDA」をリリースしました。FlashKDAはMITライセンスのもとGitHubで公開されており、Moonshot AIが導入した新しい注意機構であるKDAに特化しています。この機構はKimi Linearモデルアーキテクチャの一部であり、計算効率を最適化するためにKDAと従来の注意層を交互に使用します。
FlashKDAはNVIDIAのCUTLASSライブラリを用いて書き直され、Hopper GPU上でのパフォーマンスを最大化しており、以前のTriton実装と比較して1.7倍から2.2倍の高速な順方向推論を実現しています。このツールは、可変長入力やバッチ処理のシナリオで特に効果的です。ただし、現時点では順方向パスのみをサポートしており、トレーニングには元のTritonバージョンが必要です。FlashKDAはHopper以降のGPU、CUDA 12.9以上、PyTorch 2.4以上を必要とし、flash-linear-attentionリポジトリに統合されており、ユーザーは簡単な設定変更で切り替えが可能です。
MetaEra、FlashKDAをオープンソース化し、Kimiの推論速度を最大2.2倍向上
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
