llama.cpp увеличил скорость локального вывода модели на 78% благодаря внедрению MTP, метода спекулятивного декодирования. Это улучшение было отмечено в твите пользователя victormustar, который сообщил, что скорость плотной генерации модели Qwen3.6-27B выросла с 25 токенов в секунду до 45 токенов в секунду на GPU A10G. Увеличение скорости было достигнуто с помощью флагов --spec-type draft-mtp и --spec-draft-n-max 2 в llama-server. Информация была опубликована в личном твите, а не в официальном объявлении.