O Tongyi Lab da Alibaba lançou o VimRAG, uma estrutura RAG multimodal de próxima geração, em 10 de abril. O VimRAG resolve o problema do "ponto cego de estado" nos sistemas existentes ao atualizar registros históricos lineares para um Grafo de Memória Multimodal. Essa estrutura utiliza um grafo acíclico direcionado dinâmico (DAG) para eliminar recuperações redundantes e rastrear caminhos de exploração em tempo real. Apresenta Codificação de Memória Visual Modulável por Grafo para alocação adaptativa de tokens em dados visuais de alta carga e emprega o mecanismo GGPO para atribuição precisa de créditos, aprimorando a precisão da atribuição de raciocínio. O VimRAG demonstrou desempenho excepcional em benchmarks como SlideVQA, MMLongBench e LVBench, com sua versão Qwen3-VL-8B-Instruct alcançando as melhores pontuações. Essa estrutura visa a transição do RAG multimodal de uma simples recuperação para um raciocínio estruturado e confiável, oferecendo soluções robustas para documentos complexos e cenários multimodais.