Исследовательская команда Google представила модель Vision Banana, которая превосходит специализированные модели визуального понимания по нескольким ключевым параметрам. Применив легкую настройку инструкций к своей модели генерации изображений Nano Banana Pro, команда преобразовала её в универсальный инструмент визуального понимания. Эта модель единообразно параметризует выходные данные визуальных задач в виде RGB-изображений, что позволяет выполнять задачи, такие как сегментация и оценка глубины, через генерацию изображений без использования специализированных архитектур.
В ходе оценок Vision Banana показала отличные результаты в семантической сегментации на наборе данных Cityscapes, превзойдя модель SAM 3 на 4,7 процентных пункта. Она также превзошла SAM 3 в сегментации референциальных выражений, но отставала в сегментации экземпляров. Для 3D-задач Vision Banana достигла средней точности 0,929 в метрической оценке глубины, превзойдя модель Depth Anything V3, несмотря на то, что была обучена только на синтетических данных. Модель также установила новые эталоны в оценке нормалей поверхности. Исследование подчеркивает, что предварительное обучение на генерации изображений является ключевым для развития внутренних представлений, необходимых для визуального понимания, аналогично предварительному обучению на генерации текста в языковых моделях.
Модель Vision Banana от Google превосходит специализированные визуальные модели
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
