llama.cpp, WebGPU 통합으로 브라우저 VRAM 사용량 30% 이상 감소

llama.cpp가 공식적으로 WebGPU 지원을 통합하여 브라우저 기반 추론 시 VRAM 사용량을 30% 이상 크게 줄였습니다. 이 개발로 GGUF 형식의 대형 모델을 브라우저 내 로컬 GPU에서 직접 실행할 수 있게 되어, 네이티브 클라이언트나 복잡한 WebAssembly 설정이 필요 없어졌습니다. WebGPU 백엔드는 정적 메모리 계획과 효율적인 모델 로딩을 도입하여 기존 프레임워크 대비 GPU 메모리 오버헤드를 29%에서 33%까지 줄였습니다. 성능 향상도 두드러져, Intel, Apple, NVIDIA GPU에서 디코딩 처리량이 45%에서 69%까지 증가했습니다. 또한 이 통합은 Google의 C++ WebGPU 구현체인 Dawn을 통한 네이티브 컴파일도 지원하여 Vulkan과 WebGPU 간 성능 비교를 위한 벤치마크를 제공합니다. 이 발전은 데이터를 로컬에 유지함으로써 프라이버시를 강화하고 웹 생태계의 컴퓨팅 역량을 단순화합니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.