Qianwen d'Alibaba a dévoilé son dernier modèle à grande échelle multimodal complet, Qwen3.5-Omni. Cette série de modèles avancés comprend des versions Instruct en tailles Plus, Flash et Light, offrant une capacité de contexte longue de 256k. Il prend en charge plus de 10 heures d'entrée audio et plus de 400 secondes d'entrée audio/vidéo en 720P (1FPS). Pré-entraîné sur un vaste corpus de textes, d'images et plus de 100 millions d'heures de données audio/vidéo, Qwen3.5-Omni excelle dans la perception et la génération multimodales complètes. Le modèle Qwen3.5-Omni améliore considérablement son prédécesseur, Qwen3-Omni, en renforçant ses capacités multilingues. Il prend désormais en charge la reconnaissance vocale pour 113 langues et dialectes, ainsi que la génération vocale pour 36 langues et dialectes, marquant une avancée significative dans les offres technologiques d'IA d'Alibaba.