Modelo Vision Banana de Google supera modelos especializados

El equipo de investigación de Google ha presentado el modelo Vision Banana, que supera a los modelos especializados en comprensión visual en varias áreas clave. Al aplicar un ajuste ligero por instrucciones a su modelo de generación de imágenes, Nano Banana Pro, el equipo lo transformó en una herramienta versátil para la comprensión visual. Este modelo parametriza de manera uniforme la salida de las tareas visuales como imágenes RGB, permitiendo realizar tareas como segmentación y estimación de profundidad mediante generación de imágenes sin arquitecturas específicas para cada tarea. En las evaluaciones, Vision Banana destacó en la segmentación semántica en el conjunto de datos Cityscapes, superando al modelo SAM 3 por 4.7 puntos porcentuales. También superó a SAM 3 en la segmentación de expresiones referenciales, aunque quedó rezagado en la segmentación de instancias. Para tareas 3D, Vision Banana alcanzó una precisión promedio de 0.929 en la estimación métrica de profundidad, superando al modelo Depth Anything V3, a pesar de haber sido entrenado solo con datos sintéticos. El modelo también estableció nuevos puntos de referencia en la estimación de normales superficiales. La investigación destaca que el preentrenamiento en generación de imágenes es crucial para desarrollar las representaciones internas necesarias para la comprensión visual, similar al preentrenamiento en generación de texto en los modelos de lenguaje.