アリババのQwenチームは、大規模モデルのテキストから画像への能力を評価するためのオープンソースベンチマーク「Qwen-Image-Bench」を発表しました。このリリースに伴い、Qwen3.6-27Bでトレーニングされた視覚判定モデル「Q-Judger」も公開されました。Q-Judgerは、画像品質、美学、テキストと画像の整合性、現実世界の忠実度、創造的生成の5つの次元でモデルを評価します。このベンチマークには1,000のバイリンガルプロンプトが含まれており、56の詳細な指標でモデルを評価します。 初期評価では、GPT Image 2が総合スコア64.69でトップに立ち、5つのカテゴリーすべてで優れた成績を収めました。その他の上位パフォーマーにはNano Banana 2.0やGPT Image 1.5が含まれます。アリババのQwen Image 2.0 Proは5位にランクインしました。この評価は、AI画像生成における共通の課題、例えば人間の手の解剖学や物理法則の表現の難しさを浮き彫りにしています。