Hugging Face запустила Kernels Hub для оптимизации GPU

Hugging Face официально запустила Kernels Hub — облачное решение для предкомпилированных GPU-операторов, как объявил генеральный директор Клем Деланг. Эта новая услуга призвана упростить установку GPU-ядр, которые имеют решающее значение для оптимизации производительности видеокарт. Традиционно компиляция таких ядер, как FlashAttention, требовала значительных ресурсов и времени, часто приводя к ошибкам из-за несовпадения версий. Kernels Hub решает эти проблемы, предлагая предкомпилированные ядра для различных GPU и системных сред, позволяя разработчикам внедрять их одной строкой кода. Сервис поддерживает несколько платформ аппаратного ускорения, включая NVIDIA CUDA, AMD ROCm, Apple Metal и Intel XPU, и интегрирован в фреймворк вывода Hugging Face TGI и библиотеку Transformers. Изначально запущенный в тестовом режиме в июне прошлого года, Kernels Hub теперь был обновлен до репозитория первого класса на Hugging Face Hub, наряду с Models, Datasets и Spaces. В настоящее время доступно 61 предкомпилированное ядро, охватывающее важные случаи использования, такие как механизмы внимания и квантизация.

Вам также может понравиться