L'équipe Qwen d'Alibaba a présenté Qwen-Image-Bench, un benchmark open source conçu pour évaluer les capacités de génération d'images à partir de texte des grands modèles. Accompagnant cette sortie, Q-Judger est un modèle de juge visuel entraîné sur Qwen3.6-27B, qui évalue les modèles selon cinq dimensions : qualité de l'image, esthétique, alignement texte-image, fidélité au monde réel et génération créative. Le benchmark comprend 1 000 invites bilingues et évalue les modèles sur 56 métriques détaillées. Les évaluations initiales montrent que GPT Image 2 est en tête avec un score composite de 64,69, excellant dans les cinq catégories. Parmi les autres meilleurs performeurs figurent Nano Banana 2.0 et GPT Image 1.5. Qwen Image 2.0 Pro d'Alibaba se classe cinquième. L'évaluation met en lumière des défis courants dans la génération d'images par IA, tels que les difficultés liées à l'anatomie de la main humaine et à la représentation des lois physiques.