Hugging Face lance Kernels Hub pour optimisation GPU

Hugging Face a officiellement lancé Kernels Hub, une solution cloud pour les opérateurs GPU précompilés, comme l'a annoncé le PDG Clem Delangue. Ce nouveau service vise à simplifier l'installation des kernels GPU, essentiels pour optimiser les performances des cartes graphiques. Traditionnellement, la compilation de ces kernels, tels que FlashAttention, nécessitait des ressources et du temps importants, entraînant souvent des erreurs dues à des incompatibilités de versions. Kernels Hub répond à ces défis en proposant des kernels précompilés pour divers environnements GPU et systèmes, permettant aux développeurs de les implémenter avec une seule ligne de code. Le service prend en charge plusieurs plateformes d'accélération matérielle, notamment NVIDIA CUDA, AMD ROCm, Apple Metal et Intel XPU, et est intégré au framework d'inférence TGI de Hugging Face ainsi qu'à la bibliothèque Transformers. Lancé initialement en phase de test en juin dernier, Kernels Hub a désormais été promu au rang de type de dépôt de première classe sur le Hugging Face Hub, aux côtés des Models, Datasets et Spaces. Actuellement, 61 kernels précompilés sont disponibles, couvrant des cas d'utilisation essentiels tels que les mécanismes d'attention et la quantification.

Vous pourriez aussi aimer