llama.cpp официально интегрировал поддержку WebGPU, что значительно снизило использование видеопамяти (VRAM) для инференса в браузере более чем на 30%. Это развитие позволяет крупным моделям в формате GGUF запускаться непосредственно на локальных GPU внутри браузеров, устраняя необходимость в нативных клиентах или сложных настройках WebAssembly. Бэкенд WebGPU вводит статическое планирование памяти и эффективную загрузку моделей, сокращая нагрузку на видеопамять на 29–33% по сравнению с существующими фреймворками.
Значительные улучшения производительности проявляются в увеличении пропускной способности декодирования на GPU Intel, Apple и NVIDIA на 45–69%. Интеграция также поддерживает нативную компиляцию через реализацию WebGPU на C++ от Google — Dawn, предоставляя эталон для сравнения производительности между Vulkan и WebGPU. Этот прогресс повышает конфиденциальность, сохраняя данные локально, и упрощает вычислительные возможности веб-экосистемы.
llama.cpp интегрирует WebGPU, снижая использование VRAM браузера более чем на 30%
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
