Nhóm Qwen của Alibaba đã ra mắt tính năng lưu trữ đệm ngầm tự động cho mô hình Qwen3.7-Max trên nền tảng Bailian của Alibaba Cloud, giúp giảm đáng kể chi phí đầu vào lên đến 80%. Tính năng mới này cho phép các nhà phát triển tiết kiệm chi phí mà không cần thay đổi mã hoặc thêm tham số. Hệ thống nhận diện các tiền tố ngữ cảnh lặp lại trong các yêu cầu, chỉ tính phí 20% so với mức tiêu chuẩn cho các token đầu vào được khớp. Lưu trữ đệm ngầm đặc biệt hữu ích trong các tình huống liên quan đến văn bản dài và các tác vụ Agent, nơi Qwen3.7-Max thường xuyên xử lý các bộ mã nguồn lớn hoặc tài liệu. Động thái này diễn ra trong bối cảnh áp lực cạnh tranh về giá, đặc biệt từ DeepSeek V4-Pro, vốn gần đây đã giảm giá tính phí cache-hit xuống còn 0,003625 USD cho mỗi triệu token. Đáp lại, Qwen3.7-Max cũng cung cấp chế độ lưu trữ đệm rõ ràng, mang lại chi phí thấp hơn nữa nhưng yêu cầu cấu hình thủ công.