Команда Qwen компании Alibaba представила FlashQLA — высокопроизводительный линейный ядро внимания, разработанное для улучшения обработки ИИ на персональных устройствах. Выпущенный 29 апреля, FlashQLA построен на TileLang и, как сообщается, обеспечивает в 2–3 раза более быструю прямую передачу и вдвое более быструю обратную передачу. Ядро включает вычисления внутри карты с управлением через ворота и аппаратно-дружественные алгебраические оптимизации, хотя конкретные технические детали и ограничения остаются нераскрытыми.