llama.cpp añade WebGPU y reduce VRAM un 30%

llama.cpp ha integrado oficialmente el soporte para WebGPU, reduciendo significativamente el uso de VRAM para inferencias basadas en navegador en más del 30%. Este desarrollo permite que modelos grandes en formato GGUF se ejecuten directamente en GPUs locales dentro de los navegadores, eliminando la necesidad de clientes nativos o configuraciones complejas de WebAssembly. El backend de WebGPU introduce planificación estática de memoria y carga eficiente de modelos, reduciendo la sobrecarga de memoria GPU entre un 29% y un 33% en comparación con los frameworks existentes. Las mejoras en el rendimiento son notables, con un aumento en el rendimiento de decodificación en GPUs de Intel, Apple y NVIDIA de entre el 45% y el 69%. La integración también soporta compilación nativa a través de la implementación de WebGPU en C++ de Google, Dawn, ofreciendo un punto de referencia para comparaciones de rendimiento entre Vulkan y WebGPU. Este avance mejora la privacidad al mantener los datos localmente y simplifica las capacidades de cómputo del ecosistema web.