llama.cpp đã tăng tốc độ suy luận mô hình cục bộ lên 78% thông qua việc triển khai MTP, một phương pháp giải mã suy đoán. Cải tiến này được nhấn mạnh trong một tweet của victormustar, ghi nhận rằng tốc độ tạo mật độ của mô hình Qwen3.6-27B đã tăng từ 25 token mỗi giây lên 45 token mỗi giây trên GPU A10G. Tăng tốc độ này đạt được bằng cách sử dụng các cờ --spec-type draft-mtp và --spec-draft-n-max 2 trong llama-server. Thông tin này được chia sẻ qua một tweet cá nhân và không phải là một thông báo chính thức.