A MetaEra lançou o FlashKDA, um conjunto de ferramentas de código aberto projetado para acelerar a inferência de modelos em GPUs da série NVIDIA Hopper, como as H100 e H20. O FlashKDA, disponível no GitHub sob a licença MIT, é adaptado para o KDA, um novo mecanismo de atenção introduzido pela Moonshot AI. Esse mecanismo, parte da arquitetura do modelo Kimi Linear, alterna entre camadas de atenção KDA e tradicionais para otimizar a eficiência computacional.
O FlashKDA foi reescrito utilizando a biblioteca CUTLASS da NVIDIA para maximizar o desempenho nas GPUs Hopper, alcançando uma inferência direta de 1,7x a 2,2x mais rápida em comparação com sua implementação anterior em Triton. A ferramenta é particularmente eficaz em cenários com comprimentos de entrada variáveis e processamento em lotes. No entanto, atualmente suporta apenas a passagem direta, exigindo a versão original em Triton para treinamento. O FlashKDA requer GPUs Hopper ou mais recentes, CUDA 12.9+ e PyTorch 2.4+, e foi integrado ao repositório flash-linear-attention, permitindo que os usuários façam a troca com uma simples alteração de configuração.
MetaEra Torna o FlashKDA Open-Source, Aumentando a Velocidade de Inferência do Kimi em Até 2,2x
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
