Aliyuns Qwen3.7-Max senkt Eingabekosten um 80%

Das Qwen-Team von Alibaba hat für sein Modell Qwen3.7-Max auf der Bailian-Plattform von Alibaba Cloud ein automatisches implizites Caching eingeführt, das die Eingabekosten um bis zu 80 % erheblich senkt. Diese neue Funktion ermöglicht es Entwicklern, von Kosteneinsparungen zu profitieren, ohne den Code zu ändern oder Parameter hinzuzufügen. Das System erkennt wiederholte Kontextpräfixe in Anfragen und berechnet nur 20 % des Standardtarifs für übereinstimmende Eingabetoken. Das implizite Caching ist besonders vorteilhaft für Szenarien mit langen Texten und Agent-Aufgaben, bei denen Qwen3.7-Max häufig große Codebasen oder Dokumente verarbeitet. Dieser Schritt erfolgt vor dem Hintergrund eines intensiven Wettbewerbsdrucks, insbesondere durch DeepSeek V4-Pro, das kürzlich seine Cache-Hit-Abrechnung auf 0,003625 USD pro Million Token gesenkt hat. Als Reaktion darauf bietet Qwen3.7-Max auch einen expliziten Caching-Modus an, der noch niedrigere Kosten ermöglicht, jedoch eine manuelle Konfiguration erfordert.