Hugging Face startet Kernels Hub zur GPU-Optimierung

Hugging Face hat offiziell den Kernels Hub gestartet, eine cloudbasierte Lösung für vorcompilierte GPU-Operatoren, wie vom CEO Clem Delangue angekündigt. Dieser neue Service zielt darauf ab, die Installation von GPU-Kernels zu vereinfachen, die entscheidend für die Optimierung der Grafikleistung sind. Traditionell erforderte das Kompilieren dieser Kernel, wie beispielsweise FlashAttention, erhebliche Ressourcen und Zeit, was oft zu Fehlern aufgrund von Versionsinkompatibilitäten führte. Der Kernels Hub begegnet diesen Herausforderungen, indem er vorcompilierte Kernel für verschiedene GPU- und Systemumgebungen anbietet, die Entwickler mit nur einer Codezeile implementieren können. Der Service unterstützt mehrere Hardware-Beschleunigungsplattformen, darunter NVIDIA CUDA, AMD ROCm, Apple Metal und Intel XPU, und ist in das Inferenzframework TGI sowie die Transformers-Bibliothek von Hugging Face integriert. Nach einem ersten Teststart im Juni wurde der Kernels Hub nun zu einem erstklassigen Repository-Typ im Hugging Face Hub aufgewertet, neben Modellen, Datensätzen und Spaces. Derzeit sind 61 vorcompilierte Kernel verfügbar, die wesentliche Anwendungsfälle wie Aufmerksamkeitsmechanismen und Quantisierung abdecken.

Das könnte Ihnen auch gefallen