llama.cpp hat seine lokale Modell-Inferenzgeschwindigkeit durch die Implementierung von MTP, einer spekulativen Decodierungsmethode, um 78 % verbessert. Diese Verbesserung wurde in einem Tweet von victormustar hervorgehoben, der darauf hinwies, dass die dichte Generierungsgeschwindigkeit des Qwen3.6-27B-Modells auf einer A10G-GPU von 25 Token pro Sekunde auf 45 Token pro Sekunde gestiegen ist. Der Geschwindigkeitszuwachs wurde durch die Verwendung der Flags --spec-type draft-mtp und --spec-draft-n-max 2 im llama-server erreicht. Die Information wurde über einen persönlichen Tweet und nicht als offizielle Ankündigung geteilt.