Google đã giới thiệu một chiến lược định giá theo tầng mới cho API Gemini của mình, cung cấp năm cấp dịch vụ khác nhau: Chuẩn, Linh hoạt, Ưu tiên, Lô và Bộ nhớ đệm. Các cấp Linh hoạt và Lô cung cấp mức giảm giá 50% so với mức giá chuẩn, phục vụ cho các ứng dụng có độ nhạy thấp với độ trễ và nhu cầu xử lý dữ liệu quy mô lớn, tương ứng. Cấp Bộ nhớ đệm được thiết kế cho các cuộc gọi lệnh phức tạp với tần suất cao, với việc tính phí dựa trên số lượng token và thời gian lưu trữ. Cấp Ưu tiên, có giá cao hơn từ 75% đến 100% so với mức giá chuẩn, đảm bảo thời gian phản hồi nhanh từ vài mili giây đến vài giây, làm cho nó phù hợp với các ứng dụng quan trọng như bot dịch vụ khách hàng và phát hiện gian lận thời gian thực. Mô hình định giá mới này nhằm tối ưu hóa phân bổ tài nguyên cho các dịch vụ suy luận AI, đáp ứng các yêu cầu khác nhau về độ trễ và chi phí.