Alibaba'nın Qwen ekibi, büyük modellerin metinden görüntüye yeteneklerini değerlendirmek için tasarlanmış açık kaynaklı bir kıyaslama aracı olan Qwen-Image-Bench'i tanıttı. Bu yayınla birlikte, Qwen3.6-27B üzerinde eğitilmiş görsel bir değerlendirme modeli olan Q-Judger da sunuldu; bu model, görüntü kalitesi, estetik, metin-görüntü uyumu, gerçek dünya sadakati ve yaratıcı üretim olmak üzere beş boyutta modelleri değerlendiriyor. Kıyaslama aracı, 1.000 çift dilli komut içeriyor ve modelleri 56 ayrıntılı ölçüt üzerinden değerlendiriyor. İlk değerlendirmeler, GPT Image 2'nin 64,69 bileşik puanla tüm beş kategoride üstünlük sağlayarak lider olduğunu gösteriyor. Diğer önde gelen performans gösterenler arasında Nano Banana 2.0 ve GPT Image 1.5 bulunuyor. Alibaba'nın Qwen Image 2.0 Pro modeli ise beşinci sırada yer alıyor. Değerlendirme, insan el anatomisi ve fizik yasalarının temsilinde yaşanan zorluklar gibi yapay zeka görüntü üretimindeki yaygın sorunları ortaya koyuyor.