llama.cppは正式にWebGPUサポートを統合し、ブラウザベースの推論におけるVRAM使用量を30%以上大幅に削減しました。この開発により、GGUF形式の大規模モデルがブラウザ内のローカルGPU上で直接実行可能となり、ネイティブクライアントや複雑なWebAssemblyのセットアップが不要になりました。WebGPUバックエンドは静的メモリ計画と効率的なモデル読み込みを導入し、既存のフレームワークと比較してGPUメモリのオーバーヘッドを29%から33%削減しています。 パフォーマンスの向上も顕著で、Intel、Apple、NVIDIAのGPUでのデコードスループットが45%から69%向上しています。この統合はまた、GoogleのC++ WebGPU実装であるDawnを通じたネイティブコンパイルもサポートしており、VulkanとWebGPUの性能比較のベンチマークを提供します。この進展により、データをローカルに保持することでプライバシーが強化され、ウェブエコシステムの計算能力が簡素化されます。