구글 비전 바나나 모델, 특화 모델 능가

구글 연구팀은 여러 핵심 분야에서 전문 시각 이해 모델을 능가하는 Vision Banana 모델을 소개했습니다. 이미지 생성 모델인 Nano Banana Pro에 경량화된 지시 조정을 적용하여 이를 다목적 시각 이해 도구로 변환했습니다. 이 모델은 시각 작업의 출력을 RGB 이미지로 일관되게 매개변수화하여, 작업별 아키텍처 없이 이미지 생성을 통해 분할 및 깊이 추정과 같은 작업을 가능하게 합니다. 평가에서 Vision Banana는 Cityscapes 데이터셋의 의미론적 분할에서 SAM 3 모델을 4.7% 포인트 차이로 능가했습니다. 또한 참조 표현 분할에서도 SAM 3를 앞섰지만, 인스턴스 분할에서는 뒤처졌습니다. 3D 작업에서는 Vision Banana가 합성 데이터만으로 훈련되었음에도 불구하고 깊이 추정에서 평균 정확도 0.929를 기록하며 Depth Anything V3 모델을 능가했습니다. 이 모델은 표면 법선 추정에서도 새로운 벤치마크를 세웠습니다. 연구는 이미지 생성 사전 학습이 시각 이해에 필요한 내부 표현을 개발하는 데 필수적이며, 이는 언어 모델에서의 텍스트 생성 사전 학습과 유사하다고 강조합니다.