Qianwen của Alibaba đã ra mắt mô hình quy mô lớn đa phương thức mới nhất, Qwen3.5-Omni. Dòng mô hình tiên tiến này bao gồm các phiên bản Instruct với kích thước Plus, Flash và Light, có khả năng xử lý ngữ cảnh dài lên đến 256k. Mô hình hỗ trợ hơn 10 giờ đầu vào âm thanh và hơn 400 giây đầu vào âm thanh/hình ảnh 720P (1FPS). Được tiền huấn luyện trên dữ liệu văn bản, hình ảnh rộng lớn và hơn 100 triệu giờ dữ liệu âm thanh/hình ảnh, Qwen3.5-Omni nổi bật trong khả năng nhận thức và tạo ra đa phương thức. Mô hình Qwen3.5-Omni cải tiến đáng kể so với phiên bản trước đó, Qwen3-Omni, bằng cách nâng cao khả năng đa ngôn ngữ. Hiện nó hỗ trợ nhận dạng giọng nói cho 113 ngôn ngữ và phương ngữ, và tạo giọng nói cho 36 ngôn ngữ và phương ngữ, đánh dấu một bước tiến lớn trong các sản phẩm công nghệ AI của Alibaba.