Das Qwen-Team von Alibaba stellt den FlashQLA Linear Attention Kernel vor

Das Qwen-Team von Alibaba hat FlashQLA vorgestellt, einen leistungsstarken linearen Attention-Kernel, der entwickelt wurde, um die KI-Verarbeitung auf persönlichen Geräten zu verbessern. FlashQLA wurde am 29. April veröffentlicht, basiert auf TileLang und bietet Berichten zufolge eine 2- bis 3-mal schnellere Vorwärtsausführung sowie eine doppelt so schnelle Rückwärtsausführung. Der Kernel integriert gate-gesteuerte intra-card Berechnungen und hardwarefreundliche algebraische Optimierungen, wobei spezifische technische Details und Einschränkungen jedoch nicht offengelegt wurden.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen