Zhipu AI đã xác định và khắc phục hai lỗi nghiêm trọng trong các mô hình GLM-5 của mình được sử dụng trong các kịch bản Coding Agent. Những vấn đề này, bao gồm văn bản bị rối loạn và lặp lại, đã được người dùng báo cáo từ tháng Ba và xảy ra trong điều kiện đồng thời cao và độ dài ngữ cảnh lớn. Lỗi đầu tiên liên quan đến điều kiện tranh chấp trong kiến trúc tách PD, nơi bộ nhớ bị thu hồi quá sớm, dẫn đến ghi đè dữ liệu. Lỗi thứ hai được phát hiện trong hệ thống HiCache, nơi việc chuyển bộ nhớ đệm không đồng bộ thiếu đồng bộ hóa, gây ra việc đọc dữ liệu quá sớm. Các bản sửa lỗi đã giảm đáng kể tỷ lệ bất thường và loại bỏ một số lỗi nhất định. Ngoài ra, Zhipu còn phát hiện rằng chỉ số tỷ lệ chấp nhận cho việc lấy mẫu suy đoán có thể đóng vai trò như một tín hiệu phát hiện bất thường, cho phép giám sát thời gian thực và tự động thử lại khi phát hiện sự cố. Các tối ưu hóa thêm trong LayerSplit KV Cache đã cải thiện thông lượng lên đến 132% đối với các yêu cầu có độ dài từ 40K đến 120K token, nâng cao hiệu suất khi độ dài ngữ cảnh tăng lên.