Googleの研究チームは、Vision Bananaモデルを発表しました。このモデルは、いくつかの重要な分野で専門的な視覚理解モデルを上回る性能を示しています。彼らは画像生成モデルであるNano Banana Proに軽量な指示チューニングを適用することで、このモデルを多用途な視覚理解ツールへと変革しました。このモデルは視覚タスクの出力を一様にRGB画像としてパラメータ化し、タスク固有のアーキテクチャを必要とせずに画像生成を通じてセグメンテーションや深度推定などのタスクを可能にします。 評価では、Vision BananaはCityscapesデータセットにおけるセマンティックセグメンテーションで優れた成果を示し、SAM 3モデルを4.7ポイント上回りました。また、参照表現セグメンテーションでもSAM 3を凌駕しましたが、インスタンスセグメンテーションでは遅れを取りました。3Dタスクにおいては、Vision Bananaはメトリック深度推定で平均精度0.929を達成し、合成データのみで訓練されたにもかかわらずDepth Anything V3モデルを上回りました。このモデルは表面法線推定でも新たなベンチマークを打ち立てました。研究は、画像生成の事前学習が視覚理解に必要な内部表現の開発に不可欠であり、言語モデルにおけるテキスト生成の事前学習に類似していることを強調しています。