Intel veröffentlicht INT4-quantisierte Versionen von Alibabas Wan2.2 M

Intel hat drei INT4-quantisierte Versionen von Alibabas Wan 2.2 Video-Modellen auf Hugging Face veröffentlicht, wie Haihao Shen, Intels Chief AI Engineer, bekannt gab. Die Modelle umfassen T2V-A14B (Text-zu-Video), I2V-A14B (Bild-zu-Video) und TI2V-5B (Text-Bild-Hybrid-zu-Video), alle quantisiert mit dem AutoRound-Toolkit. Diese Quantisierung reduziert jedes Gewicht von 2 Bytes im BF16-Format auf 0,5 Bytes, wodurch die Gewichtgröße auf etwa ein Viertel des Originals verringert wird. Die A14B-Modelle verfügten ursprünglich über eine MoE-Architektur mit insgesamt 27 Milliarden Parametern und 14 Milliarden aktivierten Parametern pro Schritt, was mindestens 80 GB VRAM pro GPU für eine 720p-Auflösung erforderte. Das TI2V-5B-Modell, ein dichtes Modell, kann in seiner Originalform 720p mit 24 fps auf einer 4090-GPU ausführen. Intel hat bisher keine Benchmark-Daten zum VRAM-Verbrauch oder zur visuellen Qualität nach der Quantisierung bereitgestellt, sodass eine Überprüfung durch Dritte erforderlich ist. Nutzer werden auf Intels proprietären vllm-omni-Branch für die Bereitstellung verwiesen, da die Modelle nicht die Haupt-vLLM-Inferenzpipeline verwenden.