A equipe Qwen da Alibaba apresentou o FlashQLA, um kernel de atenção linear de alto desempenho projetado para aprimorar o processamento de IA em dispositivos pessoais. Lançado em 29 de abril, o FlashQLA é construído sobre o TileLang e, segundo relatos, oferece uma passagem direta 2 a 3 vezes mais rápida e uma passagem reversa duas vezes mais rápida. O kernel incorpora computação intra-cartão acionada por portas e otimizações algébricas amigáveis ao hardware, embora detalhes técnicos específicos e limitações permaneçam não divulgados.