Intel phát hành phiên bản INT4 lượng tử hóa của Wan2.2 M Alibaba

Intel đã phát hành ba phiên bản lượng tử hóa INT4 của các mô hình video Wan 2.2 của Alibaba trên Hugging Face, theo thông báo của Haihao Shen, Kỹ sư Trưởng AI của Intel. Các mô hình bao gồm T2V-A14B (chuyển văn bản thành video), I2V-A14B (chuyển hình ảnh thành video), và TI2V-5B (kết hợp văn bản và hình ảnh thành video), tất cả đều được lượng tử hóa bằng bộ công cụ AutoRound. Việc lượng tử hóa này giảm kích thước mỗi trọng số từ 2 byte trong BF16 xuống còn 0,5 byte, giảm đáng kể kích thước trọng số còn khoảng một phần tư so với ban đầu. Các mô hình A14B ban đầu có kiến trúc MoE với tổng số 27 tỷ tham số và 14 tỷ tham số được kích hoạt mỗi bước, yêu cầu ít nhất 80GB VRAM mỗi GPU để chạy ở độ phân giải 720p. Mô hình TI2V-5B, một mô hình dày đặc, có thể chạy 720p ở 24fps trên GPU 4090 ở dạng gốc. Intel chưa cung cấp dữ liệu chuẩn về việc sử dụng VRAM hoặc chất lượng hình ảnh sau khi lượng tử hóa, do đó cần có sự xác minh từ bên thứ ba. Người dùng được hướng dẫn sử dụng nhánh vllm-omni độc quyền của Intel để triển khai, vì các mô hình này không sử dụng đường ống suy luận vLLM chính.