MetaEra accélère l'inférence de Kimi avec FlashKDA

MetaEra a publié FlashKDA, un ensemble d'outils open-source conçu pour accélérer l'inférence des modèles sur les GPU de la série NVIDIA Hopper, tels que les H100 et H20. FlashKDA, disponible sur GitHub sous licence MIT, est spécialement adapté pour KDA, un nouveau mécanisme d'attention introduit par Moonshot AI. Ce mécanisme, faisant partie de l'architecture du modèle Kimi Linear, alterne entre KDA et les couches d'attention traditionnelles afin d'optimiser l'efficacité computationnelle. FlashKDA a été réécrit en utilisant la bibliothèque CUTLASS de NVIDIA pour maximiser les performances sur les GPU Hopper, atteignant une vitesse d'inférence avant de 1,7 à 2,2 fois plus rapide par rapport à sa précédente implémentation Triton. L'outil est particulièrement efficace dans les scénarios avec des longueurs d'entrée variables et un traitement par lots. Cependant, il ne prend actuellement en charge que la passe avant, nécessitant la version originale Triton pour l'entraînement. FlashKDA requiert des GPU Hopper ou plus récents, CUDA 12.9+ et PyTorch 2.4+, et a été intégré dans le dépôt flash-linear-attention, permettant aux utilisateurs de basculer facilement via un simple changement de configuration.

Vous pourriez aussi aimer