A equipe de pesquisa do Google apresentou o modelo Vision Banana, que supera modelos especializados de compreensão visual em várias áreas-chave. Ao aplicar um ajuste leve de instruções ao seu modelo de geração de imagens, Nano Banana Pro, a equipe o transformou em uma ferramenta versátil de compreensão visual. Este modelo parametriza uniformemente a saída das tarefas visuais como imagens RGB, permitindo tarefas como segmentação e estimativa de profundidade por meio da geração de imagens, sem arquiteturas específicas para cada tarefa.
Nas avaliações, o Vision Banana destacou-se na segmentação semântica no conjunto de dados Cityscapes, superando o modelo SAM 3 por 4,7 pontos percentuais. Também superou o SAM 3 na segmentação de expressões referenciais, mas ficou atrás na segmentação de instâncias. Para tarefas 3D, o Vision Banana alcançou uma precisão média de 0,929 na estimativa métrica de profundidade, superando o modelo Depth Anything V3, apesar de ter sido treinado apenas com dados sintéticos. O modelo também estabeleceu novos padrões na estimativa de normais de superfície. A pesquisa destaca que o pré-treinamento em geração de imagens é crucial para desenvolver representações internas necessárias para a compreensão visual, semelhante ao pré-treinamento em geração de texto em modelos de linguagem.
O Modelo Vision Banana do Google Supera Modelos Visuais Especializados
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
