인텔은 인텔의 최고 AI 엔지니어 하이하오 셴(Haihao Shen)이 발표한 바와 같이, 허깅페이스(Hugging Face)에 알리바바의 Wan 2.2 비디오 모델의 세 가지 INT4 양자화 버전을 공개했습니다. 이 모델들은 모두 AutoRound 툴킷을 사용해 양자화된 T2V-A14B(텍스트-투-비디오), I2V-A14B(이미지-투-비디오), TI2V-5B(텍스트-이미지 하이브리드-투-비디오)를 포함합니다. 이 양자화는 각 가중치를 BF16의 2바이트에서 0.5바이트로 줄여, 가중치 크기를 원래의 약 4분의 1로 크게 감소시켰습니다. A14B 모델들은 원래 270억 개의 총 파라미터와 단계당 140억 개가 활성화되는 MoE 아키텍처를 특징으로 하며, 720p 해상도에서 GPU당 최소 80GB VRAM이 필요했습니다. TI2V-5B 모델은 밀집형 모델로, 원래 형태에서 4090 GPU로 720p 24fps 실행이 가능합니다. 인텔은 아직 양자화 후 VRAM 사용량이나 시각적 품질에 대한 벤치마크 데이터를 제공하지 않아, 제3자의 검증이 필요합니다. 사용자는 이 모델들이 메인라인 vLLM 추론 파이프라인을 사용하지 않기 때문에, 배포를 위해 인텔의 독점 vllm-omni 브랜치를 참조하도록 안내받고 있습니다.