Das Qwen-Team von Alibaba hat Qwen-Image-Bench vorgestellt, ein Open-Source-Benchmark, das entwickelt wurde, um die Text-zu-Bild-Fähigkeiten großer Modelle zu bewerten. Begleitend zu dieser Veröffentlichung gibt es Q-Judger, ein visuelles Bewertungsmodell, das auf Qwen3.6-27B trainiert wurde und Modelle in fünf Dimensionen beurteilt: Bildqualität, Ästhetik, Text-Bild-Ausrichtung, Realitätsnähe und kreative Generierung. Das Benchmark umfasst 1.000 zweisprachige Eingabeaufforderungen und bewertet Modelle anhand von 56 detaillierten Metriken. Erste Bewertungen zeigen, dass GPT Image 2 mit einer Gesamtpunktzahl von 64,69 führt und in allen fünf Kategorien hervorragend abschneidet. Weitere Spitzenreiter sind Nano Banana 2.0 und GPT Image 1.5. Alibaba's Qwen Image 2.0 Pro belegt den fünften Platz. Die Bewertung hebt häufige Herausforderungen bei der KI-Bilderzeugung hervor, wie Schwierigkeiten mit der Anatomie menschlicher Hände und der Darstellung physikalischer Gesetze.