Công nghệ AI đã đạt được một cột mốc quan trọng với những tiến bộ trong nén mô hình và lượng tử hóa, đạt được tốc độ suy luận CPU tăng lên đến 10 lần và giảm kích thước mô hình, theo bài báo DartQuant được công bố vào tháng 11 năm 2025. Những đột phá này cho phép AI doanh nghiệp mở rộng hiệu quả hơn mà không cần tài nguyên tính toán lớn, đồng thời duy trì mức độ chính xác tối thiểu bị mất. Edge AI cũng đã chứng kiến một cuộc cách mạng về tốc độ, với suy luận trên thiết bị hiện có khả năng xử lý hơn 100 token mỗi giây cho phần điền trước và lên đến 70 token mỗi giây cho giải mã trên các thiết bị di động thương mại, dựa trên các chuẩn đánh giá năm 2024-2025. Phát triển này mang lại khả năng AI cấp doanh nghiệp cho các thiết bị di động. Ngoài ra, sự phối hợp giữa phần cứng và phần mềm, bao gồm Dynamo và TensorRT-LLM của NVIDIA, cùng với các đơn vị xử lý thần kinh, đã giúp các mô hình như Llama và Nemotron đạt được tốc độ suy luận nhanh hơn từ 2,1 đến 3,0 lần trong khi giảm yêu cầu về tài nguyên, theo báo cáo của NVIDIA và Red Hat vào năm 2025.