A equipe Qwen da Alibaba apresentou o Qwen-Image-Bench, um benchmark de código aberto projetado para avaliar as capacidades de texto para imagem de grandes modelos. Acompanhando este lançamento está o Q-Judger, um modelo juiz visual treinado no Qwen3.6-27B, que avalia os modelos em cinco dimensões: qualidade da imagem, estética, alinhamento texto-imagem, fidelidade ao mundo real e geração criativa. O benchmark inclui 1.000 prompts bilíngues e avalia os modelos em 56 métricas detalhadas.
As avaliações iniciais mostram o GPT Image 2 liderando com uma pontuação composta de 64,69, destacando-se em todas as cinco categorias. Outros destaques incluem o Nano Banana 2.0 e o GPT Image 1.5. O Qwen Image 2.0 Pro da Alibaba ocupa a quinta posição. A avaliação destaca desafios comuns na geração de imagens por IA, como dificuldades com a anatomia da mão humana e a representação das leis físicas.
Alibaba Lança Qwen-Image-Bench para Avaliar Modelos de Texto para Imagem
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
