Das Tongyi-Labor von Alibaba hat am 10. April VimRAG vorgestellt, ein multimodales RAG-Framework der nächsten Generation. VimRAG adressiert das Problem der "State-Blindheit" in bestehenden Systemen, indem es lineare Verlaufsaufzeichnungen zu einem Multimodalen Speichergraphen aufwertet. Dieses Framework verwendet einen dynamischen gerichteten azyklischen Graphen (DAG), um redundante Abrufe zu eliminieren und Erkundungspfade in Echtzeit zu verfolgen. Es verfügt über eine graphmodulierte visuelle Speicher-Codierung zur adaptiven Token-Zuweisung bei hochbelasteten visuellen Daten und nutzt den GGPO-Mechanismus für eine präzise Zuordnung von Verantwortlichkeiten, was die Genauigkeit der Schlussfolgerungszuordnung verbessert. VimRAG hat außergewöhnliche Leistungen bei Benchmarks wie SlideVQA, MMLongBench und LVBench gezeigt, wobei die Version Qwen3-VL-8B-Instruct Spitzenwerte erzielte. Dieses Framework zielt darauf ab, multimodales RAG von einfachem Abruf zu strukturiertem, zuverlässigem Schließen weiterzuentwickeln und bietet robuste Lösungen für komplexe Dokumente und multimodale Szenarien an.