llama.cpp, MTP Desteği ile Yerel Model Hızını %78 Artırdı

llama.cpp, spekülatif bir kod çözme yöntemi olan MTP'nin uygulanmasıyla yerel model çıkarım hızını %78 artırdı. Bu gelişme, victormustar tarafından atılan bir tweette vurgulandı; Qwen3.6-27B modelinin yoğun üretim hızı, A10G GPU üzerinde saniyede 25 token'dan saniyede 45 token'a yükseldi. Hız artışı, llama-server'da --spec-type draft-mtp ve --spec-draft-n-max 2 bayraklarının kullanılmasıyla sağlandı. Bu bilgi kişisel bir tweet ile paylaşıldı, resmi bir duyuru olarak yapılmadı.

Kaynak: Orijinalini Göster

Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler