KI erzielt 10-fache Effizienzsteigerung durch Modellkompression

Die KI-Technologie hat mit Fortschritten in der Modellkompression und Quantisierung einen bedeutenden Meilenstein erreicht und erzielt laut dem im November 2025 veröffentlichten DartQuant-Papier eine bis zu 10-fache Steigerung der CPU-Inferenzgeschwindigkeit sowie eine Reduzierung der Modellgröße. Diese Durchbrüche ermöglichen es der Unternehmens-KI, effizienter zu skalieren, ohne erhebliche Rechenressourcen zu benötigen, und dabei nur minimale Genauigkeitsverluste zu verzeichnen. Auch im Bereich Edge AI hat es eine Geschwindigkeitsrevolution gegeben: Die Inferenz direkt auf dem Gerät kann nun basierend auf Benchmarks von 2024-2025 über 100 Tokens pro Sekunde beim Vorbefüllen und bis zu 70 Tokens pro Sekunde beim Dekodieren auf handelsüblichen Mobilgeräten verarbeiten. Diese Entwicklung bringt KI-Fähigkeiten auf Unternehmensniveau auf mobile Geräte. Darüber hinaus hat die Synergie zwischen Hardware und Software, einschließlich NVIDIAs Dynamo und TensorRT-LLM sowie neuronalen Verarbeitungseinheiten, es Modellen wie Llama und Nemotron ermöglicht, eine 2,1- bis 3,0-fach schnellere Inferenzgeschwindigkeit zu erreichen und gleichzeitig den Ressourcenbedarf zu senken, wie von NVIDIA und Red Hat im Jahr 2025 berichtet wurde.