Google представила новую многоуровневую стратегию ценообразования для своего API Gemini, предлагая пять различных уровней обслуживания: Standard, Flexible, Priority, Batch и Cache. Уровни Flexible и Batch предоставляют скидку 50% от стандартных тарифов, соответственно ориентируясь на приложения с низкой чувствительностью к задержкам и потребностями в масштабной обработке данных. Уровень Cache предназначен для частых вызовов сложных инструкций, при этом оплата производится на основе количества токенов и продолжительности хранения. Уровень Priority, стоимость которого на 75%–100% выше стандартного тарифа, обеспечивает быстрое время отклика от миллисекунд до секунд, что делает его подходящим для критически важных приложений, таких как боты службы поддержки и системы обнаружения мошенничества в реальном времени. Эта новая модель ценообразования направлена на оптимизацию распределения ресурсов для сервисов AI-инференса, учитывая различные требования к задержкам и стоимости.