llama.cpp: WebGPU-Unterstützung, 30% weniger VRAM

llama.cpp hat offiziell WebGPU-Unterstützung integriert, wodurch der VRAM-Verbrauch für browserbasierte Inferenz um über 30 % erheblich reduziert wird. Diese Entwicklung ermöglicht es, große Modelle im GGUF-Format direkt auf lokalen GPUs innerhalb von Browsern auszuführen, wodurch native Clients oder komplexe WebAssembly-Setups überflüssig werden. Das WebGPU-Backend führt statische Speicherplanung und effizientes Modellladen ein, wodurch der GPU-Speicherbedarf im Vergleich zu bestehenden Frameworks um 29 % bis 33 % gesenkt wird. Die Leistungsverbesserungen sind bemerkenswert, mit einer Steigerung des Dekodierungsdurchsatzes auf Intel-, Apple- und NVIDIA-GPUs um 45 % bis 69 %. Die Integration unterstützt zudem die native Kompilierung über Googles C++ WebGPU-Implementierung Dawn, was einen Benchmark für Leistungsvergleiche zwischen Vulkan und WebGPU bietet. Dieser Fortschritt verbessert die Privatsphäre, indem Daten lokal gehalten werden, und vereinfacht die Rechenkapazitäten des Web-Ökosystems.