알리바바의 Qwen 팀이 개인 기기에서 AI 처리를 향상시키기 위해 설계된 고성능 선형 어텐션 커널인 FlashQLA를 발표했습니다. 4월 29일에 출시된 FlashQLA는 TileLang을 기반으로 하며, 전방 전달 속도가 2~3배 빠르고 역전파 속도는 2배 빠른 것으로 알려졌습니다. 이 커널은 게이트 기반의 카드 내 계산과 하드웨어 친화적인 대수 최적화를 통합하고 있지만, 구체적인 기술 세부 사항과 제한 사항은 공개되지 않았습니다.