Intel đã phát hành ba phiên bản lượng tử hóa INT4 của các mô hình video Wan 2.2 của Alibaba trên Hugging Face, theo thông báo của Haihao Shen, Kỹ sư Trưởng AI của Intel. Các mô hình bao gồm T2V-A14B (chuyển văn bản thành video), I2V-A14B (chuyển hình ảnh thành video), và TI2V-5B (kết hợp văn bản và hình ảnh thành video), tất cả đều được lượng tử hóa bằng bộ công cụ AutoRound. Việc lượng tử hóa này giảm kích thước mỗi trọng số từ 2 byte trong BF16 xuống còn 0,5 byte, giảm đáng kể kích thước trọng số còn khoảng một phần tư so với ban đầu.
Các mô hình A14B ban đầu có kiến trúc MoE với tổng số 27 tỷ tham số và 14 tỷ tham số được kích hoạt mỗi bước, yêu cầu ít nhất 80GB VRAM mỗi GPU để chạy ở độ phân giải 720p. Mô hình TI2V-5B, một mô hình dày đặc, có thể chạy 720p ở 24fps trên GPU 4090 ở dạng gốc. Intel chưa cung cấp dữ liệu chuẩn về việc sử dụng VRAM hoặc chất lượng hình ảnh sau khi lượng tử hóa, do đó cần có sự xác minh từ bên thứ ba. Người dùng được hướng dẫn sử dụng nhánh vllm-omni độc quyền của Intel để triển khai, vì các mô hình này không sử dụng đường ống suy luận vLLM chính.
Intel Ra Mắt Phiên Bản Lượng Tử INT4 của Các Mô Hình Wan2.2 của Alibaba
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
