llama.cpp : Support WebGPU, -30% VRAM

llama.cpp a officiellement intégré la prise en charge de WebGPU, réduisant significativement l'utilisation de la VRAM pour l'inférence basée sur le navigateur de plus de 30 %. Ce développement permet aux grands modèles au format GGUF de fonctionner directement sur les GPU locaux au sein des navigateurs, éliminant ainsi le besoin de clients natifs ou de configurations complexes en WebAssembly. Le backend WebGPU introduit une planification mémoire statique et un chargement efficace des modèles, réduisant la surcharge mémoire GPU de 29 % à 33 % par rapport aux frameworks existants. Les améliorations de performance sont notables, avec un débit de décodage sur les GPU Intel, Apple et NVIDIA en hausse de 45 % à 69 %. L'intégration prend également en charge la compilation native via l'implémentation C++ WebGPU de Google, Dawn, offrant une référence pour les comparaisons de performances entre Vulkan et WebGPU. Cette avancée améliore la confidentialité en conservant les données localement et simplifie les capacités de calcul de l'écosystème web.