L'équipe de recherche de Google a présenté le modèle Vision Banana, qui surpasse les modèles spécialisés dans la compréhension visuelle dans plusieurs domaines clés. En appliquant un réglage léger par instructions à leur modèle de génération d'images, Nano Banana Pro, l'équipe l'a transformé en un outil polyvalent de compréhension visuelle. Ce modèle paramètre uniformément la sortie des tâches visuelles sous forme d'images RGB, permettant des tâches telles que la segmentation et l'estimation de la profondeur via la génération d'images, sans architectures spécifiques à chaque tâche.
Lors des évaluations, Vision Banana a excellé en segmentation sémantique sur le jeu de données Cityscapes, surpassant le modèle SAM 3 de 4,7 points de pourcentage. Il a également dépassé SAM 3 en segmentation d'expressions référentielles, mais a été moins performant en segmentation d'instances. Pour les tâches 3D, Vision Banana a atteint une précision moyenne de 0,929 en estimation métrique de la profondeur, dépassant le modèle Depth Anything V3, malgré un entraînement uniquement sur des données synthétiques. Le modèle a également établi de nouveaux standards en estimation des normales de surface. La recherche souligne que le pré-entraînement à la génération d'images est crucial pour développer les représentations internes nécessaires à la compréhension visuelle, à l'instar du pré-entraînement à la génération de texte dans les modèles linguistiques.
Le modèle Vision Banana de Google dépasse les modèles visuels spécialisés
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
