Intel Lança Versões INT4 Quantizadas do Wan2.2 M da Alibaba

A Intel lançou três versões quantizadas em INT4 dos modelos de vídeo Wan 2.2 da Alibaba no Hugging Face, conforme anunciado por Haihao Shen, Engenheiro Chefe de IA da Intel. Os modelos incluem T2V-A14B (texto para vídeo), I2V-A14B (imagem para vídeo) e TI2V-5B (híbrido texto-imagem para vídeo), todos quantizados usando a ferramenta AutoRound. Essa quantização reduz cada peso de 2 bytes em BF16 para 0,5 bytes, diminuindo significativamente o tamanho do peso para cerca de um quarto do original. Os modelos A14B originalmente apresentavam uma arquitetura MoE com 27 bilhões de parâmetros totais e 14 bilhões ativados por etapa, exigindo pelo menos 80GB de VRAM por GPU para resolução 720p. O modelo TI2V-5B, um modelo denso, pode rodar 720p a 24fps em uma GPU 4090 em sua forma original. A Intel ainda não forneceu dados de benchmark sobre o uso de VRAM ou qualidade visual após a quantização, deixando necessária a verificação por terceiros. Os usuários são direcionados para o branch proprietário vllm-omni da Intel para implantação, pois os modelos não utilizam o pipeline principal de inferência vLLM.