llama.cpp augmente la vitesse du modèle local de 78 % grâce au support MTP

llama.cpp a amélioré la vitesse d'inférence de son modèle local de 78 % grâce à la mise en œuvre de MTP, une méthode de décodage spéculatif. Cette amélioration a été mise en avant dans un tweet de victormustar, qui a noté que la vitesse de génération dense du modèle Qwen3.6-27B est passée de 25 tokens par seconde à 45 tokens par seconde sur un GPU A10G. Ce gain de vitesse a été obtenu en utilisant les options --spec-type draft-mtp et --spec-draft-n-max 2 dans llama-server. L'information a été partagée via un tweet personnel et non comme une annonce officielle.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.

Vous pourriez aussi aimer