허깅페이스, GPU 최적화용 커널 허브 출시

Hugging Face는 CEO Clem Delangue가 발표한 바와 같이, 사전 컴파일된 GPU 연산자를 위한 클라우드 기반 솔루션인 Kernels Hub를 공식 출시했습니다. 이 새로운 서비스는 그래픽 카드 성능 최적화에 중요한 GPU 커널 설치를 간소화하는 것을 목표로 합니다. 전통적으로 FlashAttention과 같은 커널을 컴파일하는 데는 상당한 자원과 시간이 필요했으며, 버전 불일치로 인한 오류가 자주 발생했습니다. Kernels Hub는 다양한 GPU 및 시스템 환경에 맞춘 사전 컴파일된 커널을 제공하여 개발자가 한 줄의 코드로 이를 구현할 수 있도록 이 문제를 해결합니다. 이 서비스는 NVIDIA CUDA, AMD ROCm, Apple Metal, Intel XPU 등 여러 하드웨어 가속 플랫폼을 지원하며, Hugging Face의 추론 프레임워크 TGI와 Transformers 라이브러리에 통합되어 있습니다. 지난해 6월 테스트로 처음 출시된 Kernels Hub는 현재 Models, Datasets, Spaces와 함께 Hugging Face Hub의 일류 저장소 유형으로 업그레이드되었습니다. 현재 61개의 사전 컴파일된 커널이 제공되며, 주의 메커니즘과 양자화와 같은 필수 사용 사례를 포함합니다.

함께 보면 좋은 콘텐츠