L'équipe de recherche de Google a présenté le modèle Vision Banana, qui surpasse les modèles spécialisés dans la compréhension visuelle dans plusieurs domaines clés. En appliquant un réglage léger par instructions à leur modèle de génération d'images, Nano Banana Pro, l'équipe l'a transformé en un outil polyvalent de compréhension visuelle. Ce modèle paramètre uniformément la sortie des tâches visuelles sous forme d'images RGB, permettant des tâches telles que la segmentation et l'estimation de la profondeur via la génération d'images, sans architectures spécifiques à chaque tâche. Lors des évaluations, Vision Banana a excellé en segmentation sémantique sur le jeu de données Cityscapes, surpassant le modèle SAM 3 de 4,7 points de pourcentage. Il a également dépassé SAM 3 en segmentation d'expressions référentielles, mais a été moins performant en segmentation d'instances. Pour les tâches 3D, Vision Banana a atteint une précision moyenne de 0,929 en estimation métrique de la profondeur, dépassant le modèle Depth Anything V3, malgré un entraînement uniquement sur des données synthétiques. Le modèle a également établi de nouveaux standards en estimation des normales de surface. La recherche souligne que le pré-entraînement à la génération d'images est crucial pour développer les représentations internes nécessaires à la compréhension visuelle, à l'instar du pré-entraînement à la génération de texte dans les modèles linguistiques.