llama.cpp steigert die Geschwindigkeit lokaler Modelle um 78 % mit MTP-Unterstützung

llama.cpp hat seine lokale Modell-Inferenzgeschwindigkeit durch die Implementierung von MTP, einer spekulativen Decodierungsmethode, um 78 % verbessert. Diese Verbesserung wurde in einem Tweet von victormustar hervorgehoben, der darauf hinwies, dass die dichte Generierungsgeschwindigkeit des Qwen3.6-27B-Modells auf einer A10G-GPU von 25 Token pro Sekunde auf 45 Token pro Sekunde gestiegen ist. Der Geschwindigkeitszuwachs wurde durch die Verwendung der Flags --spec-type draft-mtp und --spec-draft-n-max 2 im llama-server erreicht. Die Information wurde über einen persönlichen Tweet und nicht als offizielle Ankündigung geteilt.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen