Equipe Qwen da Alibaba Lança Kernel de Atenção Linear FlashQLA

A equipe Qwen da Alibaba apresentou o FlashQLA, um kernel de atenção linear de alto desempenho projetado para aprimorar o processamento de IA em dispositivos pessoais. Lançado em 29 de abril, o FlashQLA é construído sobre o TileLang e, segundo relatos, oferece uma passagem direta 2 a 3 vezes mais rápida e uma passagem reversa duas vezes mais rápida. O kernel incorpora computação intra-cartão acionada por portas e otimizações algébricas amigáveis ao hardware, embora detalhes técnicos específicos e limitações permaneçam não divulgados.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar