O llama.cpp aumentou a velocidade de inferência do seu modelo local em 78% através da implementação do MTP, um método de decodificação especulativa. Essa melhoria foi destacada em um tweet de victormustar, que observou que a velocidade de geração densa do modelo Qwen3.6-27B aumentou de 25 tokens por segundo para 45 tokens por segundo em uma GPU A10G. O aumento de velocidade foi alcançado usando as flags --spec-type draft-mtp e --spec-draft-n-max 2 no llama-server. A informação foi compartilhada por meio de um tweet pessoal e não como um anúncio oficial.