AI技術は、モデル圧縮と量子化の進歩により重要なマイルストーンに到達しました。2025年11月に発表されたDartQuant論文によると、CPU推論速度が最大10倍に向上し、モデルサイズも大幅に削減されています。これらの突破口により、企業向けAIは大幅な計算資源を必要とせずにより効率的にスケールでき、精度の損失も最小限に抑えられます。 エッジAIも速度革命を迎えており、2024~2025年のベンチマークに基づくと、商用モバイルデバイス上でのオンデバイス推論は、プリフィルで毎秒100トークン以上、デコードで毎秒最大70トークンの処理が可能となっています。この進展により、企業レベルのAI機能がモバイルデバイスにもたらされました。 さらに、NVIDIAのDynamoやTensorRT-LLM、ニューラルプロセッシングユニットを含むハードウェアとソフトウェアの相乗効果により、LlamaやNemotronといったモデルは推論速度が2.1倍から3.0倍に向上し、リソースの要求も削減されていると、2025年にNVIDIAとRed Hatが報告しています。