Googleの研究チームは、Vision Bananaモデルを発表しました。このモデルは、いくつかの重要な分野で専門的な視覚理解モデルを上回る性能を示しています。彼らは画像生成モデルであるNano Banana Proに軽量な指示チューニングを適用することで、このモデルを多用途な視覚理解ツールへと変革しました。このモデルは視覚タスクの出力を一様にRGB画像としてパラメータ化し、タスク固有のアーキテクチャを必要とせずに画像生成を通じてセグメンテーションや深度推定などのタスクを可能にします。
評価では、Vision BananaはCityscapesデータセットにおけるセマンティックセグメンテーションで優れた成果を示し、SAM 3モデルを4.7ポイント上回りました。また、参照表現セグメンテーションでもSAM 3を凌駕しましたが、インスタンスセグメンテーションでは遅れを取りました。3Dタスクにおいては、Vision Bananaはメトリック深度推定で平均精度0.929を達成し、合成データのみで訓練されたにもかかわらずDepth Anything V3モデルを上回りました。このモデルは表面法線推定でも新たなベンチマークを打ち立てました。研究は、画像生成の事前学習が視覚理解に必要な内部表現の開発に不可欠であり、言語モデルにおけるテキスト生成の事前学習に類似していることを強調しています。
GoogleのVision Bananaモデルが専門的な視覚モデルを上回る
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
