Một kỹ sư của Anthropic đã chia sẻ những hiểu biết về cách tối ưu hóa việc sử dụng token trong Claude Code bằng cách tận dụng các cơ chế lưu trữ đệm, có thể giúp người dùng tiết kiệm tới 300 triệu token mỗi tuần. Chìa khóa để giảm chi phí nằm ở việc tái sử dụng ngữ cảnh đã được xử lý trước đó, với token được lưu trong bộ nhớ đệm chỉ tốn 10% so với token đầu vào thông thường. Bằng cách duy trì tiền tố phiên làm việc nhất quán, người dùng có thể sử dụng hiệu quả các lớp bộ nhớ đệm, bao gồm các lời nhắc hệ thống, định nghĩa công cụ và lịch sử cuộc trò chuyện, nhằm giảm thiểu các phép tính dư thừa. Để tối đa hóa hiệu quả bộ nhớ đệm, người dùng được khuyên không nên để phiên làm việc không hoạt động quá một giờ, thực hiện chuyển giao phiên làm việc đúng cách khi chuyển đổi nhiệm vụ, và đặt các tài liệu lớn vào Dự án thay vì dán chúng vào cuộc trò chuyện. Những thực hành này giúp duy trì tỷ lệ trúng bộ nhớ đệm cao, không chỉ kéo dài độ bền của phiên làm việc mà còn giảm chi phí dịch vụ cho Anthropic. Kỹ sư nhấn mạnh việc coi ngữ cảnh như quản lý tài sản để cho phép tái sử dụng bộ nhớ đệm liên tục và nâng cao tuổi thọ của các phiên lập trình.