インテルは、インテルのチーフAIエンジニアである沈海浩(Haihao Shen)氏の発表により、Hugging Face上でアリババのWan 2.2ビデオモデルの3つのINT4量子化バージョンをリリースしました。これらのモデルには、T2V-A14B(テキストからビデオへ)、I2V-A14B(画像からビデオへ)、およびTI2V-5B(テキスト・画像ハイブリッドからビデオへ)が含まれており、すべてAutoRoundツールキットを使用して量子化されています。この量子化により、各重みはBF16の2バイトから0.5バイトに削減され、重みのサイズは元の約4分の1に大幅に減少しています。 A14Bモデルはもともと、合計270億パラメータ、ステップごとに140億が活性化されるMoEアーキテクチャを特徴としており、720p解像度でGPUあたり少なくとも80GBのVRAMを必要としていました。TI2V-5Bモデルは密なモデルで、元の形態で4090 GPU上で720pを24fpsで実行できます。インテルはまだ量子化後のVRAM使用量や画質に関するベンチマークデータを提供しておらず、第三者による検証が必要です。これらのモデルはメインラインのvLLM推論パイプラインを使用していないため、ユーザーはインテルの独自のvllm-omniブランチを使用して展開するよう案内されています。