Ramp Labs a introduit "Latent Briefing", une nouvelle méthode pour un partage efficace de la mémoire dans les systèmes multi-agents, réduisant significativement l'utilisation des tokens jusqu'à 65 % sans compromettre la précision. Cette approche compresse les grands caches KV des modèles, permettant une décomposition et une exécution des tâches plus efficaces dans les architectures multi-agents. Sur le benchmark LongBench v2, la méthode a montré une réduction de 65 % de la consommation de tokens pour les modèles travailleurs et une amélioration de la précision de 3 points de pourcentage. La solution, testée avec les modèles Claude Sonnet 4 et Qwen3-14B, a démontré des temps de traitement plus rapides et une adaptabilité à divers types de documents.