A Zhipu AI identificou e resolveu dois bugs críticos em seus modelos da série GLM-5 usados em cenários de Agente de Codificação. Esses problemas, que incluíam texto embaralhado e repetições, foram relatados por usuários desde março e ocorriam sob alta concorrência e longos comprimentos de contexto. O primeiro bug envolvia uma condição de corrida na arquitetura de separação PD, onde a memória era liberada prematuramente, levando a sobrescritas de dados. O segundo bug foi encontrado no sistema HiCache, onde o descarregamento assíncrono do cache carecia de sincronização, causando leituras prematuras de dados. As correções reduziram significativamente as taxas de anomalias e eliminaram certos erros. Além disso, a Zhipu descobriu que a métrica de taxa de aceitação para amostragem especulativa poderia servir como um sinal de detecção de anomalias, permitindo monitoramento em tempo real e tentativas automáticas quando problemas são detectados. Otimizações adicionais no LayerSplit KV Cache melhoraram a taxa de transferência em até 132% para requisições com comprimentos entre 40K e 120K tokens, aprimorando o desempenho à medida que o comprimento do contexto aumenta.