Phòng thí nghiệm Tongyi của Alibaba đã ra mắt VimRAG, một khung RAG đa phương tiện thế hệ mới, vào ngày 10 tháng 4. VimRAG giải quyết vấn đề "điểm mù trạng thái" trong các hệ thống hiện có bằng cách nâng cấp các bản ghi lịch sử tuyến tính thành Đồ thị Bộ nhớ Đa phương tiện. Khung này sử dụng đồ thị có hướng không chu trình động (DAG) để loại bỏ việc truy xuất dư thừa và theo dõi các đường khám phá theo thời gian thực. Nó có tính năng Mã hóa Bộ nhớ Thị giác Điều chỉnh theo Đồ thị để phân bổ token thích ứng trong dữ liệu hình ảnh tải cao và sử dụng cơ chế GGPO để phân bổ tín dụng chính xác, nâng cao độ chính xác trong việc xác định nguyên nhân suy luận. VimRAG đã thể hiện hiệu suất xuất sắc trên các tiêu chuẩn như SlideVQA, MMLongBench và LVBench, với phiên bản Qwen3-VL-8B-Instruct đạt điểm cao nhất. Khung này nhằm mục đích chuyển đổi RAG đa phương tiện từ việc truy xuất đơn giản sang suy luận có cấu trúc và đáng tin cậy, cung cấp các giải pháp mạnh mẽ cho các tài liệu phức tạp và các kịch bản đa phương tiện.