El equipo Qwen de Alibaba ha presentado Qwen-Image-Bench, un punto de referencia de código abierto diseñado para evaluar las capacidades de texto a imagen de grandes modelos. Junto con este lanzamiento se presenta Q-Judger, un modelo juez visual entrenado en Qwen3.6-27B, que evalúa los modelos en cinco dimensiones: calidad de imagen, estética, alineación texto-imagen, fidelidad al mundo real y generación creativa. El benchmark incluye 1,000 indicaciones bilingües y evalúa los modelos en 56 métricas detalladas. Las evaluaciones iniciales muestran a GPT Image 2 liderando con una puntuación compuesta de 64.69, destacándose en las cinco categorías. Otros destacados incluyen Nano Banana 2.0 y GPT Image 1.5. Qwen Image 2.0 Pro de Alibaba ocupa el quinto lugar. La evaluación resalta desafíos comunes en la generación de imágenes por IA, como dificultades con la anatomía de la mano humana y la representación de las leyes físicas.