llama.cpp, spekülatif bir kod çözme yöntemi olan MTP'nin uygulanmasıyla yerel model çıkarım hızını %78 artırdı. Bu gelişme, victormustar tarafından atılan bir tweette vurgulandı; Qwen3.6-27B modelinin yoğun üretim hızı, A10G GPU üzerinde saniyede 25 token'dan saniyede 45 token'a yükseldi. Hız artışı, llama-server'da --spec-type draft-mtp ve --spec-draft-n-max 2 bayraklarının kullanılmasıyla sağlandı. Bu bilgi kişisel bir tweet ile paylaşıldı, resmi bir duyuru olarak yapılmadı.