llama.cpp, MTP 지원으로 로컬 모델 속도 78% 향상

llama.cpp는 추측적 디코딩 방법인 MTP를 구현하여 로컬 모델 추론 속도를 78% 향상시켰습니다. 이 개선 사항은 victormustar의 트윗에서 강조되었으며, Qwen3.6-27B 모델의 밀집 생성 속도가 A10G GPU에서 초당 25토큰에서 45토큰으로 증가했다고 언급했습니다. 속도 향상은 llama-server에서 --spec-type draft-mtp 및 --spec-draft-n-max 2 플래그를 사용하여 달성되었습니다. 이 정보는 공식 발표가 아닌 개인 트윗을 통해 공유되었습니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.

함께 보면 좋은 콘텐츠