llama.cpp Thêm Hỗ Trợ WebGPU, Giảm 30% Dung Lượng VRAM

llama.cpp đã chính thức tích hợp hỗ trợ WebGPU, giảm đáng kể việc sử dụng VRAM cho suy luận trên trình duyệt hơn 30%. Phát triển này cho phép các mô hình lớn định dạng GGUF chạy trực tiếp trên GPU cục bộ trong trình duyệt, loại bỏ nhu cầu về các ứng dụng gốc hoặc các thiết lập WebAssembly phức tạp. Backend WebGPU giới thiệu kế hoạch bộ nhớ tĩnh và tải mô hình hiệu quả, giảm tải bộ nhớ GPU từ 29% đến 33% so với các framework hiện có. Cải tiến hiệu suất rõ rệt, với thông lượng giải mã trên các GPU Intel, Apple và NVIDIA tăng từ 45% đến 69%. Việc tích hợp cũng hỗ trợ biên dịch gốc thông qua triển khai WebGPU C++ của Google, Dawn, cung cấp một chuẩn để so sánh hiệu suất giữa Vulkan và WebGPU. Tiến bộ này nâng cao quyền riêng tư bằng cách giữ dữ liệu tại chỗ và đơn giản hóa khả năng tính toán của hệ sinh thái web.