Ramp Labs hat "Latent Briefing" vorgestellt, eine neue Methode für effizientes Speichermanagement in Multi-Agenten-Systemen, die den Tokenverbrauch um bis zu 65 % reduziert, ohne die Genauigkeit zu beeinträchtigen. Der Ansatz komprimiert große KV-Caches von Modellen, was eine effizientere Aufgabenzerlegung und -ausführung in Multi-Agenten-Architekturen ermöglicht. Im LongBench v2 Benchmark zeigte die Methode eine Reduktion des Tokenverbrauchs bei Arbeitsmodellen um 65 % und verbesserte die Genauigkeit um 3 Prozentpunkte. Die Lösung, getestet mit den Modellen Claude Sonnet 4 und Qwen3-14B, zeigte schnellere Verarbeitungszeiten und Anpassungsfähigkeit an verschiedene Dokumenttypen.