MetaEra Acelera Inferência do Kimi com FlashKDA

A MetaEra lançou o FlashKDA, um conjunto de ferramentas de código aberto projetado para acelerar a inferência de modelos em GPUs da série NVIDIA Hopper, como as H100 e H20. O FlashKDA, disponível no GitHub sob a licença MIT, é adaptado para o KDA, um novo mecanismo de atenção introduzido pela Moonshot AI. Esse mecanismo, parte da arquitetura do modelo Kimi Linear, alterna entre camadas de atenção KDA e tradicionais para otimizar a eficiência computacional. O FlashKDA foi reescrito utilizando a biblioteca CUTLASS da NVIDIA para maximizar o desempenho nas GPUs Hopper, alcançando uma inferência direta de 1,7x a 2,2x mais rápida em comparação com sua implementação anterior em Triton. A ferramenta é particularmente eficaz em cenários com comprimentos de entrada variáveis e processamento em lotes. No entanto, atualmente suporta apenas a passagem direta, exigindo a versão original em Triton para treinamento. O FlashKDA requer GPUs Hopper ou mais recentes, CUDA 12.9+ e PyTorch 2.4+, e foi integrado ao repositório flash-linear-attention, permitindo que os usuários façam a troca com uma simples alteração de configuração.

Você também pode gostar