Intel publie versions INT4 quantifiées de Wan2.2 M d'Alibaba

Intel a publié trois versions quantifiées en INT4 des modèles vidéo Wan 2.2 d'Alibaba sur Hugging Face, comme l'a annoncé Haihao Shen, ingénieur en chef en IA chez Intel. Les modèles incluent T2V-A14B (texte en vidéo), I2V-A14B (image en vidéo) et TI2V-5B (hybride texte-image en vidéo), tous quantifiés à l'aide de l'outil AutoRound. Cette quantification réduit chaque poids de 2 octets en BF16 à 0,5 octet, diminuant ainsi significativement la taille des poids à environ un quart de l'original. Les modèles A14B présentaient à l'origine une architecture MoE avec 27 milliards de paramètres au total et 14 milliards activés par étape, nécessitant au moins 80 Go de VRAM par GPU pour une résolution 720p. Le modèle TI2V-5B, un modèle dense, peut fonctionner en 720p à 24 fps sur un GPU 4090 dans sa forme originale. Intel n'a pas encore fourni de données de référence sur l'utilisation de la VRAM ou la qualité visuelle après quantification, laissant la vérification à des tiers. Les utilisateurs sont dirigés vers la branche propriétaire vllm-omni d'Intel pour le déploiement, car les modèles n'utilisent pas le pipeline d'inférence principal vLLM.