Ramp Labs Ra Mắt Giải Pháp Chia Sẻ Bộ Nhớ Đa Tác Nhân Hiệu Quả

Ramp Labs đã giới thiệu "Latent Briefing," một phương pháp mới để chia sẻ bộ nhớ hiệu quả trong các hệ thống đa tác nhân, giảm đáng kể việc sử dụng token lên đến 65% mà không làm giảm độ chính xác. Phương pháp này nén các bộ nhớ đệm KV lớn của mô hình, cho phép phân tách và thực thi nhiệm vụ hiệu quả hơn trong kiến trúc đa tác nhân. Trên chuẩn đo LongBench v2, phương pháp này đã giảm 65% lượng token tiêu thụ cho các mô hình công nhân và cải thiện độ chính xác lên 3 điểm phần trăm. Giải pháp, được thử nghiệm với các mô hình Claude Sonnet 4 và Qwen3-14B, đã chứng minh thời gian xử lý nhanh hơn và khả năng thích ứng với nhiều loại tài liệu khác nhau.

Nguồn: Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.

Bạn cũng có thể thích