llama.cpp가 공식적으로 WebGPU 지원을 통합하여 브라우저 기반 추론 시 VRAM 사용량을 30% 이상 크게 줄였습니다. 이 개발로 GGUF 형식의 대형 모델을 브라우저 내 로컬 GPU에서 직접 실행할 수 있게 되어, 네이티브 클라이언트나 복잡한 WebAssembly 설정이 필요 없어졌습니다. WebGPU 백엔드는 정적 메모리 계획과 효율적인 모델 로딩을 도입하여 기존 프레임워크 대비 GPU 메모리 오버헤드를 29%에서 33%까지 줄였습니다. 성능 향상도 두드러져, Intel, Apple, NVIDIA GPU에서 디코딩 처리량이 45%에서 69%까지 증가했습니다. 또한 이 통합은 Google의 C++ WebGPU 구현체인 Dawn을 통한 네이티브 컴파일도 지원하여 Vulkan과 WebGPU 간 성능 비교를 위한 벤치마크를 제공합니다. 이 발전은 데이터를 로컬에 유지함으로써 프라이버시를 강화하고 웹 생태계의 컴퓨팅 역량을 단순화합니다.