Zhipu AI는 코딩 에이전트 시나리오에 사용되는 GLM-5 시리즈 모델에서 두 가지 치명적인 버그를 식별하고 해결했습니다. 이 문제들은 3월부터 사용자들에 의해 보고되었으며, 고동시성과 긴 컨텍스트 길이에서 발생한 글자가 깨지거나 반복되는 현상을 포함했습니다. 첫 번째 버그는 PD-분리 아키텍처에서 발생한 경쟁 조건으로, 메모리가 조기에 회수되어 데이터 덮어쓰기가 발생했습니다. 두 번째 버그는 비동기 캐시 오프로드에서 동기화가 부족해 조기 데이터 읽기가 발생하는 HiCache 시스템에서 발견되었습니다. 이 수정으로 이상률이 크게 감소하고 특정 오류가 제거되었습니다. 추가로, Zhipu는 추측 샘플링의 수용률 지표가 이상 탐지 신호로 활용될 수 있음을 발견하여, 문제 발생 시 실시간 모니터링과 자동 재시도를 가능하게 했습니다. LayerSplit KV 캐시의 추가 최적화는 40K에서 120K 토큰 길이의 요청에 대해 처리량을 최대 132%까지 향상시켜, 컨텍스트 길이가 증가함에 따라 성능을 개선했습니다.