Исследовательская команда Google представила модель Vision Banana, которая превосходит специализированные модели визуального понимания по нескольким ключевым параметрам. Применив легкую настройку инструкций к своей модели генерации изображений Nano Banana Pro, команда преобразовала её в универсальный инструмент визуального понимания. Эта модель единообразно параметризует выходные данные визуальных задач в виде RGB-изображений, что позволяет выполнять задачи, такие как сегментация и оценка глубины, через генерацию изображений без использования специализированных архитектур. В ходе оценок Vision Banana показала отличные результаты в семантической сегментации на наборе данных Cityscapes, превзойдя модель SAM 3 на 4,7 процентных пункта. Она также превзошла SAM 3 в сегментации референциальных выражений, но отставала в сегментации экземпляров. Для 3D-задач Vision Banana достигла средней точности 0,929 в метрической оценке глубины, превзойдя модель Depth Anything V3, несмотря на то, что была обучена только на синтетических данных. Модель также установила новые эталоны в оценке нормалей поверхности. Исследование подчеркивает, что предварительное обучение на генерации изображений является ключевым для развития внутренних представлений, необходимых для визуального понимания, аналогично предварительному обучению на генерации текста в языковых моделях.