llama.cpp는 추측적 디코딩 방법인 MTP를 구현하여 로컬 모델 추론 속도를 78% 향상시켰습니다. 이 개선 사항은 victormustar의 트윗에서 강조되었으며, Qwen3.6-27B 모델의 밀집 생성 속도가 A10G GPU에서 초당 25토큰에서 45토큰으로 증가했다고 언급했습니다. 속도 향상은 llama-server에서 --spec-type draft-mtp 및 --spec-draft-n-max 2 플래그를 사용하여 달성되었습니다. 이 정보는 공식 발표가 아닌 개인 트윗을 통해 공유되었습니다.