Googles Vision Banana Modell übertrifft Spezialmodelle

Das Forschungsteam von Google hat das Modell Vision Banana vorgestellt, das in mehreren wichtigen Bereichen spezialisierte Modelle zur visuellen Erkennung übertrifft. Durch die Anwendung eines leichten Instruction Tunings auf ihr Bildgenerierungsmodell Nano Banana Pro verwandelte das Team dieses in ein vielseitiges Werkzeug für visuelles Verständnis. Dieses Modell parametrisiert die Ausgaben visueller Aufgaben einheitlich als RGB-Bilder, wodurch Aufgaben wie Segmentierung und Tiefenschätzung durch Bildgenerierung ohne aufgabenspezifische Architekturen ermöglicht werden. In Bewertungen zeigte Vision Banana herausragende Leistungen bei der semantischen Segmentierung des Cityscapes-Datensatzes und übertraf das Modell SAM 3 um 4,7 Prozentpunkte. Es übertraf SAM 3 auch bei der Segmentierung referenzieller Ausdrücke, hinkte jedoch bei der Instanzsegmentierung hinterher. Für 3D-Aufgaben erreichte Vision Banana eine durchschnittliche Genauigkeit von 0,929 bei der metrischen Tiefenschätzung und übertraf damit das Modell Depth Anything V3, obwohl es nur mit synthetischen Daten trainiert wurde. Das Modell setzte auch neue Maßstäbe bei der Schätzung von Oberflächennormalen. Die Forschung hebt hervor, dass das Pretraining mit Bildgenerierung entscheidend für die Entwicklung interner Repräsentationen ist, die für das visuelle Verständnis notwendig sind, ähnlich wie das Pretraining mit Textgenerierung bei Sprachmodellen.