llama.cpp ha integrado oficialmente el soporte para WebGPU, reduciendo significativamente el uso de VRAM para inferencias basadas en navegador en más del 30%. Este desarrollo permite que modelos grandes en formato GGUF se ejecuten directamente en GPUs locales dentro de los navegadores, eliminando la necesidad de clientes nativos o configuraciones complejas de WebAssembly. El backend de WebGPU introduce planificación estática de memoria y carga eficiente de modelos, reduciendo la sobrecarga de memoria GPU entre un 29% y un 33% en comparación con los frameworks existentes.
Las mejoras en el rendimiento son notables, con un aumento en el rendimiento de decodificación en GPUs de Intel, Apple y NVIDIA de entre el 45% y el 69%. La integración también soporta compilación nativa a través de la implementación de WebGPU en C++ de Google, Dawn, ofreciendo un punto de referencia para comparaciones de rendimiento entre Vulkan y WebGPU. Este avance mejora la privacidad al mantener los datos localmente y simplifica las capacidades de cómputo del ecosistema web.
llama.cpp integra WebGPU y reduce el uso de VRAM del navegador en más del 30%
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
