MetaEra steigert Kimis Inferenzgeschwindigkeit mit FlashKDA

MetaEra hat FlashKDA veröffentlicht, ein Open-Source-Toolset, das entwickelt wurde, um die Modellinferenz auf NVIDIA Hopper-Serie GPUs wie dem H100 und H20 zu beschleunigen. FlashKDA, das auf GitHub unter der MIT-Lizenz verfügbar ist, ist speziell für KDA ausgelegt, einen neuartigen Aufmerksamkeitsmechanismus, der von Moonshot AI eingeführt wurde. Dieser Mechanismus, Teil der Kimi Linear Modellarchitektur, wechselt zwischen KDA- und traditionellen Aufmerksamkeits-Schichten, um die Recheneffizienz zu optimieren. FlashKDA wurde unter Verwendung der CUTLASS-Bibliothek von NVIDIA neu geschrieben, um die Leistung auf Hopper-GPUs zu maximieren und erreicht eine 1,7- bis 2,2-fach schnellere Vorwärtsinferenz im Vergleich zur vorherigen Triton-Implementierung. Das Tool ist besonders effektiv in Szenarien mit variablen Eingabelängen und Batch-Verarbeitung. Es unterstützt derzeit jedoch nur den Vorwärtsdurchlauf, für das Training wird die ursprüngliche Triton-Version benötigt. FlashKDA erfordert Hopper- oder neuere GPUs, CUDA 12.9+ und PyTorch 2.4+ und wurde in das flash-linear-attention-Repository integriert, wodurch Benutzer mit einer einfachen Konfigurationsänderung wechseln können.

Das könnte Ihnen auch gefallen