llama.cpp a officiellement intégré la prise en charge de WebGPU, réduisant significativement l'utilisation de la VRAM pour l'inférence basée sur le navigateur de plus de 30 %. Ce développement permet aux grands modèles au format GGUF de fonctionner directement sur les GPU locaux au sein des navigateurs, éliminant ainsi le besoin de clients natifs ou de configurations complexes en WebAssembly. Le backend WebGPU introduit une planification mémoire statique et un chargement efficace des modèles, réduisant la surcharge mémoire GPU de 29 % à 33 % par rapport aux frameworks existants.
Les améliorations de performance sont notables, avec un débit de décodage sur les GPU Intel, Apple et NVIDIA en hausse de 45 % à 69 %. L'intégration prend également en charge la compilation native via l'implémentation C++ WebGPU de Google, Dawn, offrant une référence pour les comparaisons de performances entre Vulkan et WebGPU. Cette avancée améliore la confidentialité en conservant les données localement et simplifie les capacités de calcul de l'écosystème web.
llama.cpp intègre WebGPU, réduit l'utilisation de la VRAM du navigateur de plus de 30 %
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
