Das Qwen-Team von Alibaba hat FlashQLA vorgestellt, einen leistungsstarken linearen Attention-Kernel, der entwickelt wurde, um die KI-Verarbeitung auf persönlichen Geräten zu verbessern. FlashQLA wurde am 29. April veröffentlicht, basiert auf TileLang und bietet Berichten zufolge eine 2- bis 3-mal schnellere Vorwärtsausführung sowie eine doppelt so schnelle Rückwärtsausführung. Der Kernel integriert gate-gesteuerte intra-card Berechnungen und hardwarefreundliche algebraische Optimierungen, wobei spezifische technische Details und Einschränkungen jedoch nicht offengelegt wurden.