Nhóm Qwen của Alibaba đã giới thiệu FlashQLA, một kernel chú ý tuyến tính hiệu suất cao được thiết kế để nâng cao xử lý AI trên các thiết bị cá nhân. Được phát hành vào ngày 29 tháng 4, FlashQLA được xây dựng trên TileLang và được cho là cung cấp tốc độ xử lý tiến nhanh hơn gấp 2–3 lần và tốc độ xử lý lùi nhanh gấp đôi. Kernel này tích hợp tính toán nội bộ trên thẻ dựa trên cổng và các tối ưu đại số thân thiện với phần cứng, mặc dù các chi tiết kỹ thuật cụ thể và giới hạn vẫn chưa được tiết lộ.