llama.cppは、推測的デコーディング手法であるMTPの実装により、ローカルモデルの推論速度を78%向上させました。この改善はvictormustarのツイートで強調されており、Qwen3.6-27Bモデルの密生成速度がA10G GPU上で1秒あたり25トークンから45トークンに増加したことが報告されました。速度向上は、llama-serverでフラグ--spec-type draft-mtpおよび--spec-draft-n-max 2を使用することで達成されました。この情報は公式発表ではなく、個人のツイートを通じて共有されました。