Компания Alibaba представила свою последнюю полноформатную крупномасштабную модель Qwen3.5-Omni. Эта продвинутая серия моделей включает версии Instruct в размерах Plus, Flash и Light, обладающие возможностью обработки контекста длиной до 256 тысяч токенов. Модель поддерживает более 10 часов аудиовхода и свыше 400 секунд аудио/видео входа в разрешении 720P (1 кадр в секунду). Предварительно обученная на обширных текстовых, визуальных данных и более чем 100 миллионах часов аудио/видео, Qwen3.5-Omni превосходно справляется с полноформатным восприятием и генерацией. Модель Qwen3.5-Omni значительно улучшена по сравнению с предшественницей Qwen3-Omni за счёт расширенных многоязычных возможностей. Теперь она поддерживает распознавание речи на 113 языках и диалектах, а также генерацию речи на 36 языках и диалектах, что является значительным шагом вперёд в технологических предложениях Alibaba в области искусственного интеллекта.