L'équipe Qwen d'Alibaba a lancé la mise en cache implicite automatique pour son modèle Qwen3.7-Max sur la plateforme Bailian d'Alibaba Cloud, réduisant ainsi les coûts d'entrée jusqu'à 80 %. Cette nouvelle fonctionnalité permet aux développeurs de réaliser des économies sans modifier le code ni ajouter de paramètres. Le système identifie les préfixes de contexte répétés dans les requêtes, ne facturant que 20 % du tarif standard pour les jetons d'entrée correspondants. La mise en cache implicite est particulièrement avantageuse pour les scénarios impliquant de longs textes et des tâches d'Agent, où Qwen3.7-Max traite fréquemment de grandes bases de code ou des documents. Cette initiative intervient dans un contexte de pression concurrentielle sur les prix, notamment de la part de DeepSeek V4-Pro, qui a récemment réduit sa facturation pour les hits de cache à 0,003625 $ par million de jetons. En réponse, Qwen3.7-Max propose également un mode de mise en cache explicite, offrant des coûts encore plus bas mais nécessitant une configuration manuelle.