Zhipu AI выявила и устранила две критические ошибки в своих моделях серии GLM-5, используемых в сценариях Coding Agent. Эти проблемы, включающие искажённый текст и повторения, были зафиксированы пользователями с марта и возникали при высокой конкуренции и больших длинах контекста. Первая ошибка была связана с состоянием гонки в архитектуре PD-separation, где память освобождалась преждевременно, что приводило к перезаписи данных. Вторая ошибка была обнаружена в системе HiCache, где асинхронная выгрузка кэша не имела синхронизации, вызывая преждевременное чтение данных. Исправления значительно снизили количество аномалий и устранили определённые ошибки. Кроме того, Zhipu обнаружила, что метрика уровня принятия для спекулятивной выборки может служить сигналом обнаружения аномалий, позволяя осуществлять мониторинг в реальном времени и автоматические повторные попытки при обнаружении проблем. Дополнительные оптимизации в LayerSplit KV Cache улучшили пропускную способность до 132% для запросов длиной от 40 000 до 120 000 токенов, повышая производительность с увеличением длины контекста.