llama.cpp: поддержка WebGPU и снижение VRAM на 30%

llama.cpp официально интегрировал поддержку WebGPU, что значительно снизило использование видеопамяти (VRAM) для инференса в браузере более чем на 30%. Это развитие позволяет крупным моделям в формате GGUF запускаться непосредственно на локальных GPU внутри браузеров, устраняя необходимость в нативных клиентах или сложных настройках WebAssembly. Бэкенд WebGPU вводит статическое планирование памяти и эффективную загрузку моделей, сокращая нагрузку на видеопамять на 29–33% по сравнению с существующими фреймворками. Значительные улучшения производительности проявляются в увеличении пропускной способности декодирования на GPU Intel, Apple и NVIDIA на 45–69%. Интеграция также поддерживает нативную компиляцию через реализацию WebGPU на C++ от Google — Dawn, предоставляя эталон для сравнения производительности между Vulkan и WebGPU. Этот прогресс повышает конфиденциальность, сохраняя данные локально, и упрощает вычислительные возможности веб-экосистемы.