Команда Qwen компании Alibaba представила Qwen-Image-Bench — открытый эталон для оценки возможностей больших моделей в преобразовании текста в изображение. Вместе с этим релизом был представлен Q-Judger — визуальная модель-судья, обученная на Qwen3.6-27B, которая оценивает модели по пяти параметрам: качество изображения, эстетика, соответствие текста и изображения, реалистичность и творческое создание. В эталон включено 1000 двуязычных подсказок, а модели оцениваются по 56 детализированным метрикам. Первичные оценки показывают, что GPT Image 2 лидирует с комплексным баллом 64,69, превосходя во всех пяти категориях. Среди других лучших участников — Nano Banana 2.0 и GPT Image 1.5. Модель Qwen Image 2.0 Pro от Alibaba занимает пятое место. Оценка выявила общие проблемы в генерации изображений ИИ, такие как сложности с анатомией человеческой руки и отображением физических законов.