Hugging Face lanza Kernels Hub para optimizar GPU

Hugging Face ha lanzado oficialmente Kernels Hub, una solución en la nube para operadores de GPU precompilados, según anunció el CEO Clem Delangue. Este nuevo servicio tiene como objetivo simplificar la instalación de kernels de GPU, que son cruciales para optimizar el rendimiento de las tarjetas gráficas. Tradicionalmente, compilar estos kernels, como FlashAttention, requería recursos y tiempo significativos, lo que a menudo conducía a errores debido a incompatibilidades de versiones. Kernels Hub aborda estos desafíos ofreciendo kernels precompilados para diversos entornos de GPU y sistemas, permitiendo a los desarrolladores implementarlos con una sola línea de código. El servicio soporta múltiples plataformas de aceleración de hardware, incluyendo NVIDIA CUDA, AMD ROCm, Apple Metal e Intel XPU, y está integrado en el marco de inferencia TGI de Hugging Face y en la biblioteca Transformers. Lanzado inicialmente en fase de prueba en junio pasado, Kernels Hub ha sido ahora actualizado a un tipo de repositorio de primera clase en Hugging Face Hub, junto con Models, Datasets y Spaces. Actualmente, hay 61 kernels precompilados disponibles, que cubren casos de uso esenciales como mecanismos de atención y cuantización.

También te podría gustar