Ramp Labs는 다중 에이전트 시스템에서 효율적인 메모리 공유를 위한 새로운 방법인 "Latent Briefing"을 도입했습니다. 이 방법은 정확도를 저해하지 않으면서 토큰 사용량을 최대 65%까지 크게 줄입니다. 이 접근법은 대규모 모델 KV 캐시를 압축하여 다중 에이전트 아키텍처에서 작업 분해 및 실행을 보다 효율적으로 수행할 수 있게 합니다. LongBench v2 벤치마크에서 이 방법은 작업자 모델의 토큰 소비를 65% 줄였으며 정확도는 3퍼센트포인트 향상시켰습니다. Claude Sonnet 4 및 Qwen3-14B 모델로 테스트된 이 솔루션은 더 빠른 처리 시간과 다양한 문서 유형에 대한 적응성을 보여주었습니다.