Zhipu AI hat zwei kritische Fehler in seinen GLM-5-Serienmodellen identifiziert und behoben, die in Coding-Agent-Szenarien verwendet werden. Diese Probleme, die unter anderem aus unleserlichem Text und Wiederholungen bestanden, wurden von Nutzern seit März gemeldet und traten bei hoher Parallelität und langen Kontextlängen auf. Der erste Fehler betraf eine Race Condition in der PD-Separationsarchitektur, bei der Speicher zu früh freigegeben wurde, was zu Datenüberschreibungen führte. Der zweite Fehler wurde im HiCache-System gefunden, wo das asynchrone Auslagern des Caches ohne Synchronisation erfolgte, was zu vorzeitigen Datenlesungen führte. Die Behebungen haben die Anomalieraten deutlich reduziert und bestimmte Fehler eliminiert. Darüber hinaus entdeckte Zhipu, dass die Akzeptanzrate-Metrik für spekulatives Sampling als Signal zur Anomalieerkennung dienen kann, was eine Echtzeitüberwachung und automatische Wiederholungen bei Erkennung von Problemen ermöglicht. Weitere Optimierungen im LayerSplit KV Cache haben den Durchsatz bei Anfragen mit Längen zwischen 40.000 und 120.000 Tokens um bis zu 132 % verbessert, wodurch die Leistung mit zunehmender Kontextlänge gesteigert wird.