Zhipu hat die GLM-5.1 High-Speed API eingeführt, die eine bahnbrechende Ausgabegeschwindigkeit von 400 Tokens pro Sekunde erreicht und damit einen neuen globalen Maßstab für Schnittstellen großer Modelle setzt. Diese High-Speed-API, die ausgewählten Unternehmenskunden zur Verfügung steht, wird von einer leistungsstarken Inferenz-Engine angetrieben, die in Zusammenarbeit mit dem TileRT-Team entwickelt wurde. Die Engine optimiert die GPU-Planung, indem sie Modelle in persistente Engine-Kerne kompiliert, was die Latenz erheblich reduziert. In Multi-GPU-Umgebungen verbessert das TileRT-System die Effizienz, indem es GPU-Knoten in einer 8-GPU-NVL-Topologie spezialisiert, was die Berechnungen der Aufmerksamkeits-Schichten und die Kommunikation zwischen GPUs verbessert. Zhipu plant, die FP8-Inferenz weiter zu optimieren und die Kontextfähigkeiten zu erweitern, um Anwendungen mit niedriger Latenz wie KI-Programmierung und Echtzeit-Interaktionen zu unterstützen.