O Tongyi Lab da Alibaba lançou o VimRAG, uma estrutura RAG multimodal de próxima geração, em 10 de abril. O VimRAG resolve o problema do "ponto cego de estado" nos sistemas existentes ao atualizar registros históricos lineares para um Grafo de Memória Multimodal. Essa estrutura utiliza um grafo acíclico direcionado dinâmico (DAG) para eliminar recuperações redundantes e rastrear caminhos de exploração em tempo real. Apresenta Codificação de Memória Visual Modulável por Grafo para alocação adaptativa de tokens em dados visuais de alta carga e emprega o mecanismo GGPO para atribuição precisa de créditos, aprimorando a precisão da atribuição de raciocínio.
O VimRAG demonstrou desempenho excepcional em benchmarks como SlideVQA, MMLongBench e LVBench, com sua versão Qwen3-VL-8B-Instruct alcançando as melhores pontuações. Essa estrutura visa a transição do RAG multimodal de uma simples recuperação para um raciocínio estruturado e confiável, oferecendo soluções robustas para documentos complexos e cenários multimodais.
O Tongyi Lab da Alibaba Lança Estrutura Avançada Multimodal RAG, VimRAG
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
