Hugging Face lança Kernels Hub para otimização GPU

A Hugging Face lançou oficialmente o Kernels Hub, uma solução baseada na nuvem para operadores de GPU pré-compilados, conforme anunciado pelo CEO Clem Delangue. Este novo serviço tem como objetivo simplificar a instalação de kernels de GPU, que são cruciais para otimizar o desempenho da placa gráfica. Tradicionalmente, compilar esses kernels, como o FlashAttention, exigia recursos significativos e tempo, frequentemente levando a erros devido a incompatibilidades de versão. O Kernels Hub resolve esses desafios oferecendo kernels pré-compilados para vários ambientes de GPU e sistema, permitindo que os desenvolvedores os implementem com uma única linha de código. O serviço suporta múltiplas plataformas de aceleração de hardware, incluindo NVIDIA CUDA, AMD ROCm, Apple Metal e Intel XPU, e está integrado ao framework de inferência TGI da Hugging Face e à biblioteca Transformers. Inicialmente lançado em fase de testes em junho passado, o Kernels Hub foi agora atualizado para um tipo de repositório de primeira classe no Hugging Face Hub, ao lado de Models, Datasets e Spaces. Atualmente, 61 kernels pré-compilados estão disponíveis, cobrindo casos de uso essenciais, como mecanismos de atenção e quantização.

Você também pode gostar