llama.cpp resmi olarak WebGPU desteğini entegre etti ve tarayıcı tabanlı çıkarım için VRAM kullanımını %30'dan fazla azalttı. Bu gelişme, GGUF formatındaki büyük modellerin tarayıcılar içinde yerel GPU'larda doğrudan çalışmasına olanak tanıyarak, yerel istemcilere veya karmaşık WebAssembly kurulumlarına olan ihtiyacı ortadan kaldırıyor. WebGPU arka ucu, statik bellek planlaması ve verimli model yüklemeyi tanıtarak mevcut çerçevelere kıyasla GPU bellek yükünü %29 ila %33 oranında azaltıyor. Performans iyileştirmeleri dikkat çekicidir; Intel, Apple ve NVIDIA GPU'larda kod çözme verimliliği %45 ila %69 oranında artmıştır. Entegrasyon ayrıca Google'ın C++ WebGPU uygulaması Dawn aracılığıyla yerel derlemeyi destekleyerek Vulkan ve WebGPU arasında performans karşılaştırmaları için bir kıyaslama sunuyor. Bu gelişme, verileri yerel tutarak gizliliği artırıyor ve web ekosisteminin hesaplama yeteneklerini basitleştiriyor.