Zhipu AI a identifié et résolu deux bugs critiques dans ses modèles de la série GLM-5 utilisés dans les scénarios d'agent de codage. Ces problèmes, qui comprenaient du texte brouillé et des répétitions, ont été signalés par les utilisateurs depuis mars et se produisaient sous une forte concurrence et avec de longues longueurs de contexte. Le premier bug impliquait une condition de concurrence dans l'architecture de séparation PD, où la mémoire était récupérée prématurément, entraînant des écrasements de données. Le deuxième bug a été trouvé dans le système HiCache, où le déchargement asynchrone du cache manquait de synchronisation, provoquant des lectures prématurées des données. Les corrections ont considérablement réduit les taux d'anomalies et éliminé certaines erreurs. De plus, Zhipu a découvert que le taux d'acceptation pour l'échantillonnage spéculatif pouvait servir de signal de détection d'anomalies, permettant une surveillance en temps réel et des tentatives automatiques en cas de détection de problèmes. D'autres optimisations dans le cache KV LayerSplit ont amélioré le débit jusqu'à 132 % pour les requêtes dont la longueur varie entre 40 000 et 120 000 tokens, améliorant ainsi les performances à mesure que la longueur du contexte augmente.