Modelo Vision Banana do Google supera modelos especializados

A equipe de pesquisa do Google apresentou o modelo Vision Banana, que supera modelos especializados de compreensão visual em várias áreas-chave. Ao aplicar um ajuste leve de instruções ao seu modelo de geração de imagens, Nano Banana Pro, a equipe o transformou em uma ferramenta versátil de compreensão visual. Este modelo parametriza uniformemente a saída das tarefas visuais como imagens RGB, permitindo tarefas como segmentação e estimativa de profundidade por meio da geração de imagens, sem arquiteturas específicas para cada tarefa. Nas avaliações, o Vision Banana destacou-se na segmentação semântica no conjunto de dados Cityscapes, superando o modelo SAM 3 por 4,7 pontos percentuais. Também superou o SAM 3 na segmentação de expressões referenciais, mas ficou atrás na segmentação de instâncias. Para tarefas 3D, o Vision Banana alcançou uma precisão média de 0,929 na estimativa métrica de profundidade, superando o modelo Depth Anything V3, apesar de ter sido treinado apenas com dados sintéticos. O modelo também estabeleceu novos padrões na estimativa de normais de superfície. A pesquisa destaca que o pré-treinamento em geração de imagens é crucial para desenvolver representações internas necessárias para a compreensão visual, semelhante ao pré-treinamento em geração de texto em modelos de linguagem.