El equipo Qwen de Alibaba ha presentado FlashQLA, un núcleo de atención lineal de alto rendimiento diseñado para mejorar el procesamiento de IA en dispositivos personales. Lanzado el 29 de abril, FlashQLA está construido sobre TileLang y, según se informa, ofrece un paso hacia adelante 2 a 3 veces más rápido y un paso hacia atrás el doble de rápido. El núcleo incorpora computación intra-tarjeta impulsada por puertas y optimizaciones algebraicas amigables con el hardware, aunque los detalles técnicos específicos y las limitaciones permanecen sin divulgar.