MetaEra, FlashKDA ile Kimi'nin Çıkarım Hızını Artırıyor

MetaEra, H100 ve H20 gibi NVIDIA Hopper serisi GPU'larda model çıkarımını hızlandırmak için tasarlanmış açık kaynaklı bir araç seti olan FlashKDA'yı yayınladı. MIT lisansı altında GitHub'da bulunan FlashKDA, Moonshot AI tarafından tanıtılan yeni bir dikkat mekanizması olan KDA için özel olarak geliştirilmiştir. Bu mekanizma, Kimi Linear model mimarisinin bir parçası olarak, hesaplama verimliliğini optimize etmek için KDA ve geleneksel dikkat katmanları arasında geçiş yapar. FlashKDA, Hopper GPU'larda performansı maksimize etmek için NVIDIA'nın CUTLASS kütüphanesi kullanılarak yeniden yazıldı ve önceki Triton uygulamasına kıyasla ileri çıkarımda 1,7 ila 2,2 kat daha hızlı sonuçlar elde etti. Araç, değişken giriş uzunlukları ve toplu işlem senaryolarında özellikle etkilidir. Ancak, şu anda yalnızca ileri geçişi desteklemekte olup, eğitim için orijinal Triton sürümüne ihtiyaç duymaktadır. FlashKDA, Hopper veya daha yeni GPU'lar, CUDA 12.9+ ve PyTorch 2.4+ gerektirir ve flash-linear-attention deposuna entegre edilmiştir; kullanıcılar basit bir yapılandırma değişikliği ile geçiş yapabilirler.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler