Yapay zeka teknolojisi, model sıkıştırma ve kantitleştirmedeki ilerlemelerle önemli bir dönüm noktasına ulaştı; Kasım 2025'te yayımlanan DartQuant makalesine göre CPU çıkarım hızında 10 kata kadar artış ve model boyutunda azalma sağlandı. Bu atılımlar, kurumsal yapay zekanın önemli hesaplama kaynaklarına ihtiyaç duymadan daha verimli ölçeklenmesini mümkün kılarak, doğruluk kaybını minimumda tutuyor. Edge AI da bir hız devrimi yaşadı; 2024-2025 kıyaslamalarına göre, ticari mobil cihazlarda cihaz üzerinde çıkarım artık ön doldurma için saniyede 100'den fazla token ve kod çözme için saniyede 70 token işleyebiliyor. Bu gelişme, kurumsal düzeyde yapay zeka yeteneklerini mobil cihazlara taşıyor. Ayrıca, NVIDIA'nın Dynamo ve TensorRT-LLM gibi donanım ve yazılımın sinerjisi ile sinirsel işlem birimleri, Llama ve Nemotron gibi modellerin çıkarım hızlarını 2,1 ila 3,0 kat artırırken kaynak gereksinimlerini azaltmasını sağladı; bu, NVIDIA ve Red Hat tarafından 2025'te bildirildi.