Mô hình Vision Banana của Google vượt trội hơn mô hình chuyên biệt

Nhóm nghiên cứu của Google đã giới thiệu mô hình Vision Banana, vượt trội hơn các mô hình hiểu biết hình ảnh chuyên biệt trong một số lĩnh vực chính. Bằng cách áp dụng điều chỉnh hướng dẫn nhẹ nhàng cho mô hình tạo ảnh của họ, Nano Banana Pro, nhóm đã biến nó thành một công cụ hiểu biết hình ảnh đa năng. Mô hình này chuẩn hóa đầu ra của các nhiệm vụ hình ảnh dưới dạng ảnh RGB, cho phép thực hiện các nhiệm vụ như phân đoạn và ước lượng độ sâu thông qua việc tạo ảnh mà không cần kiến trúc chuyên biệt cho từng nhiệm vụ. Trong các đánh giá, Vision Banana đã xuất sắc trong phân đoạn ngữ nghĩa trên bộ dữ liệu Cityscapes, vượt qua mô hình SAM 3 với 4,7 điểm phần trăm. Nó cũng vượt trội hơn SAM 3 trong phân đoạn biểu thức tham chiếu nhưng thua kém trong phân đoạn đối tượng. Đối với các nhiệm vụ 3D, Vision Banana đạt độ chính xác trung bình 0,929 trong ước lượng độ sâu theo mét, vượt qua mô hình Depth Anything V3, mặc dù chỉ được huấn luyện trên dữ liệu tổng hợp. Mô hình cũng thiết lập các chuẩn mực mới trong ước lượng pháp tuyến bề mặt. Nghiên cứu nhấn mạnh rằng việc tiền huấn luyện tạo ảnh là rất quan trọng để phát triển các biểu diễn nội bộ cần thiết cho việc hiểu biết hình ảnh, tương tự như việc tiền huấn luyện tạo văn bản trong các mô hình ngôn ngữ.