Google'ın araştırma ekibi, birkaç önemli alanda uzmanlaşmış görsel anlama modellerini geride bırakan Vision Banana modelini tanıttı. Görüntü oluşturma modelleri Nano Banana Pro'ya hafif talimat ayarı uygulayarak, ekibi bunu çok yönlü bir görsel anlama aracına dönüştürdü. Bu model, görsel görevlerin çıktısını RGB görüntüleri olarak tek tip şekilde parametreleştirerek, görev özel mimariler olmadan segmentasyon ve derinlik tahmini gibi görevlerin görüntü oluşturma yoluyla gerçekleştirilmesini sağlıyor. Değerlendirmelerde, Vision Banana Cityscapes veri setinde anlamsal segmentasyonda üstün performans göstererek SAM 3 modelini %4,7 puanla geçti. Ayrıca referans ifadesi segmentasyonunda SAM 3'ü geride bırakırken, örnek segmentasyonda geride kaldı. 3B görevlerde Vision Banana, yalnızca sentetik verilerle eğitilmiş olmasına rağmen, metrik derinlik tahmininde 0,929 ortalama doğruluk elde ederek Depth Anything V3 modelini aştı. Model ayrıca yüzey normali tahmininde yeni kıyas noktaları belirledi. Araştırma, görüntü oluşturma ön eğitiminin, dil modellerindeki metin oluşturma ön eğitimine benzer şekilde, görsel anlama için gerekli iç temsillerin geliştirilmesinde kritik olduğunu vurguluyor.