A equipe Qwen da Alibaba apresentou o Qwen-Image-Bench, um benchmark de código aberto projetado para avaliar as capacidades de texto para imagem de grandes modelos. Acompanhando este lançamento está o Q-Judger, um modelo juiz visual treinado no Qwen3.6-27B, que avalia os modelos em cinco dimensões: qualidade da imagem, estética, alinhamento texto-imagem, fidelidade ao mundo real e geração criativa. O benchmark inclui 1.000 prompts bilíngues e avalia os modelos em 56 métricas detalhadas. As avaliações iniciais mostram o GPT Image 2 liderando com uma pontuação composta de 64,69, destacando-se em todas as cinco categorias. Outros destaques incluem o Nano Banana 2.0 e o GPT Image 1.5. O Qwen Image 2.0 Pro da Alibaba ocupa a quinta posição. A avaliação destaca desafios comuns na geração de imagens por IA, como dificuldades com a anatomia da mão humana e a representação das leis físicas.