DeepSeek đã giới thiệu một phương pháp mới trong công nghệ đa phương tiện thị giác bằng cách kết hợp "các nguyên tố thị giác" để cải thiện khả năng suy luận không gian của AI. Khác với các phương pháp truyền thống tập trung vào việc nâng cao độ phân giải hình ảnh, phương pháp của DeepSeek sử dụng các hộp giới hạn và điểm làm đơn vị tư duy cơ bản, cho phép các mô hình AI "chỉ vào" các đối tượng trong quá trình suy luận. Phương pháp này giải quyết "Khoảng cách Tham chiếu" trong suy luận đa phương tiện, nơi ngôn ngữ đơn thuần không đủ để tham chiếu không gian chính xác.
Công ty cũng nhấn mạnh hiệu quả trong việc xử lý hình ảnh, sử dụng cơ chế Chú ý Thưa Nén để giảm đáng kể số lượng token cần thiết. Điều này dẫn đến tốc độ suy luận nhanh hơn và sử dụng bộ nhớ thấp hơn, rất quan trọng cho các ứng dụng thời gian thực như thị giác robot và lái xe tự động. Mặc dù có những tiến bộ này, DeepSeek cũng thừa nhận những thách thức như phụ thuộc vào từ kích hoạt và giới hạn độ phân giải, cho thấy các lĩnh vực cần phát triển trong tương lai.
DeepSeek Ra Mắt Các Nguyên Thủy Thị Giác Để Nâng Cao Khả Năng Lập Luận Không Gian của AI
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
