DeepSeek đã giới thiệu một phương pháp mới trong công nghệ đa phương tiện thị giác bằng cách kết hợp "các nguyên tố thị giác" để cải thiện khả năng suy luận không gian của AI. Khác với các phương pháp truyền thống tập trung vào việc nâng cao độ phân giải hình ảnh, phương pháp của DeepSeek sử dụng các hộp giới hạn và điểm làm đơn vị tư duy cơ bản, cho phép các mô hình AI "chỉ vào" các đối tượng trong quá trình suy luận. Phương pháp này giải quyết "Khoảng cách Tham chiếu" trong suy luận đa phương tiện, nơi ngôn ngữ đơn thuần không đủ để tham chiếu không gian chính xác. Công ty cũng nhấn mạnh hiệu quả trong việc xử lý hình ảnh, sử dụng cơ chế Chú ý Thưa Nén để giảm đáng kể số lượng token cần thiết. Điều này dẫn đến tốc độ suy luận nhanh hơn và sử dụng bộ nhớ thấp hơn, rất quan trọng cho các ứng dụng thời gian thực như thị giác robot và lái xe tự động. Mặc dù có những tiến bộ này, DeepSeek cũng thừa nhận những thách thức như phụ thuộc vào từ kích hoạt và giới hạn độ phân giải, cho thấy các lĩnh vực cần phát triển trong tương lai.