llama.cpp ha mejorado la velocidad de inferencia local de su modelo en un 78 % mediante la implementación de MTP, un método de decodificación especulativa. Esta mejora fue destacada en un tuit de victormustar, quien señaló que la velocidad de generación densa del modelo Qwen3.6-27B aumentó de 25 tokens por segundo a 45 tokens por segundo en una GPU A10G. El aumento de velocidad se logró utilizando las banderas --spec-type draft-mtp y --spec-draft-n-max 2 en llama-server. La información fue compartida a través de un tuit personal y no como un anuncio oficial.