MetaEra、FlashKDAでKimiの推論速度を向上

MetaEraは、NVIDIAのH100やH20などのHopperシリーズGPU上でのモデル推論を高速化するために設計されたオープンソースのツールセット「FlashKDA」をリリースしました。FlashKDAはMITライセンスのもとGitHubで公開されており、Moonshot AIが導入した新しい注意機構であるKDAに特化しています。この機構はKimi Linearモデルアーキテクチャの一部であり、計算効率を最適化するためにKDAと従来の注意層を交互に使用します。 FlashKDAはNVIDIAのCUTLASSライブラリを用いて書き直され、Hopper GPU上でのパフォーマンスを最大化しており、以前のTriton実装と比較して1.7倍から2.2倍の高速な順方向推論を実現しています。このツールは、可変長入力やバッチ処理のシナリオで特に効果的です。ただし、現時点では順方向パスのみをサポートしており、トレーニングには元のTritonバージョンが必要です。FlashKDAはHopper以降のGPU、CUDA 12.9以上、PyTorch 2.4以上を必要とし、flash-linear-attentionリポジトリに統合されており、ユーザーは簡単な設定変更で切り替えが可能です。

​​こちらもおすすめ​​

こちらもおすすめ