Intel выпустил INT4-квантизированные версии Wan2.2 M от Alibaba

Intel выпустила три версии видеомоделей Wan 2.2 от Alibaba с квантованием INT4 на платформе Hugging Face, как объявил Хайхао Шен, главный инженер по ИИ в Intel. Модели включают T2V-A14B (текст-видео), I2V-A14B (изображение-видео) и TI2V-5B (гибрид текст-изображение-видео), все они квантованы с использованием набора инструментов AutoRound. Это квантование уменьшает размер каждого веса с 2 байт в формате BF16 до 0,5 байта, значительно сокращая размер весов примерно до четверти от исходного. Модели A14B изначально имели архитектуру MoE с общим числом параметров 27 миллиардов и 14 миллиардов активируемых за шаг, требуя не менее 80 ГБ видеопамяти на GPU для разрешения 720p. Модель TI2V-5B, являющаяся плотной моделью, может работать в разрешении 720p с частотой 24 кадра в секунду на GPU 4090 в своей оригинальной форме. Intel пока не предоставила данные бенчмарков по использованию видеопамяти или качеству изображения после квантования, что требует проверки со стороны третьих лиц. Пользователям рекомендуется использовать собственную ветку vllm-omni от Intel для развертывания, так как модели не используют основную инференс-пайплайн vLLM.