Le laboratoire Tongyi d'Alibaba a lancé VimRAG, un cadre RAG multimodal de nouvelle génération, le 10 avril. VimRAG résout le problème du « point aveugle d'état » dans les systèmes existants en améliorant les enregistrements historiques linéaires vers un Graphe de Mémoire Multimodal. Ce cadre utilise un graphe orienté acyclique dynamique (DAG) pour éliminer les récupérations redondantes et suivre en temps réel les chemins d'exploration. Il intègre un codage de mémoire visuelle modulé par graphe pour une allocation adaptative des tokens dans les données visuelles à forte charge et emploie le mécanisme GGPO pour une attribution précise des crédits, améliorant ainsi la précision de l'attribution du raisonnement.
VimRAG a démontré des performances exceptionnelles sur des benchmarks tels que SlideVQA, MMLongBench et LVBench, sa version Qwen3-VL-8B-Instruct obtenant les meilleurs scores. Ce cadre vise à faire passer le RAG multimodal d'une simple récupération à un raisonnement structuré et fiable, offrant des solutions robustes pour les documents complexes et les scénarios multimodaux.
Le laboratoire Tongyi d'Alibaba dévoile VimRAG, un cadre RAG multimodal avancé
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
