Nhóm nghiên cứu của Google đã giới thiệu mô hình Vision Banana, vượt trội hơn các mô hình hiểu biết hình ảnh chuyên biệt trong một số lĩnh vực chính. Bằng cách áp dụng điều chỉnh hướng dẫn nhẹ nhàng cho mô hình tạo ảnh của họ, Nano Banana Pro, nhóm đã biến nó thành một công cụ hiểu biết hình ảnh đa năng. Mô hình này chuẩn hóa đầu ra của các nhiệm vụ hình ảnh dưới dạng ảnh RGB, cho phép thực hiện các nhiệm vụ như phân đoạn và ước lượng độ sâu thông qua việc tạo ảnh mà không cần kiến trúc chuyên biệt cho từng nhiệm vụ.
Trong các đánh giá, Vision Banana đã xuất sắc trong phân đoạn ngữ nghĩa trên bộ dữ liệu Cityscapes, vượt qua mô hình SAM 3 với 4,7 điểm phần trăm. Nó cũng vượt trội hơn SAM 3 trong phân đoạn biểu thức tham chiếu nhưng thua kém trong phân đoạn đối tượng. Đối với các nhiệm vụ 3D, Vision Banana đạt độ chính xác trung bình 0,929 trong ước lượng độ sâu theo mét, vượt qua mô hình Depth Anything V3, mặc dù chỉ được huấn luyện trên dữ liệu tổng hợp. Mô hình cũng thiết lập các chuẩn mực mới trong ước lượng pháp tuyến bề mặt. Nghiên cứu nhấn mạnh rằng việc tiền huấn luyện tạo ảnh là rất quan trọng để phát triển các biểu diễn nội bộ cần thiết cho việc hiểu biết hình ảnh, tương tự như việc tiền huấn luyện tạo văn bản trong các mô hình ngôn ngữ.
Mô hình Vision Banana của Google vượt trội hơn các mô hình thị giác chuyên biệt
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
