llama.cpp Aumenta la Velocidad del Modelo Local en un 78% con Soporte MTP

llama.cpp ha mejorado la velocidad de inferencia local de su modelo en un 78 % mediante la implementación de MTP, un método de decodificación especulativa. Esta mejora fue destacada en un tuit de victormustar, quien señaló que la velocidad de generación densa del modelo Qwen3.6-27B aumentó de 25 tokens por segundo a 45 tokens por segundo en una GPU A10G. El aumento de velocidad se logró utilizando las banderas --spec-type draft-mtp y --spec-draft-n-max 2 en llama-server. La información fue compartida a través de un tuit personal y no como un anuncio oficial.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.

También te podría gustar