L'équipe Qwen d'Alibaba dévoile le noyau d'attention linéaire FlashQLA

L'équipe Qwen d'Alibaba a présenté FlashQLA, un noyau d'attention linéaire haute performance conçu pour améliorer le traitement de l'IA sur les appareils personnels. Lancé le 29 avril, FlashQLA est construit sur TileLang et offrirait une vitesse de passage avant 2 à 3 fois plus rapide ainsi qu'un passage arrière deux fois plus rapide. Le noyau intègre un calcul intra-carte piloté par des portes et des optimisations algébriques adaptées au matériel, bien que les détails techniques spécifiques et les limitations restent non divulgués.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.

Vous pourriez aussi aimer