llama.cpp Suporta WebGPU e Reduz VRAM em 30%

O llama.cpp integrou oficialmente o suporte ao WebGPU, reduzindo significativamente o uso de VRAM para inferência baseada em navegador em mais de 30%. Esse desenvolvimento permite que grandes modelos no formato GGUF sejam executados diretamente em GPUs locais dentro dos navegadores, eliminando a necessidade de clientes nativos ou configurações complexas de WebAssembly. O backend WebGPU introduz planejamento estático de memória e carregamento eficiente de modelos, reduzindo a sobrecarga de memória da GPU em 29% a 33% em comparação com frameworks existentes. As melhorias de desempenho são notáveis, com o throughput de decodificação em GPUs Intel, Apple e NVIDIA aumentando entre 45% e 69%. A integração também suporta compilação nativa via a implementação C++ do WebGPU do Google, Dawn, oferecendo um benchmark para comparações de desempenho entre Vulkan e WebGPU. Esse avanço melhora a privacidade ao manter os dados localmente e simplifica as capacidades computacionais do ecossistema web.