llama.cpp a amélioré la vitesse d'inférence de son modèle local de 78 % grâce à la mise en œuvre de MTP, une méthode de décodage spéculatif. Cette amélioration a été mise en avant dans un tweet de victormustar, qui a noté que la vitesse de génération dense du modèle Qwen3.6-27B est passée de 25 tokens par seconde à 45 tokens par seconde sur un GPU A10G. Ce gain de vitesse a été obtenu en utilisant les options --spec-type draft-mtp et --spec-draft-n-max 2 dans llama-server. L'information a été partagée via un tweet personnel et non comme une annonce officielle.