Zhipu stellt GLM-5.1 API mit Rekordausgabe von 400 Tokens/s vor

Zhipu hat die GLM-5.1 High-Speed API eingeführt, die eine bahnbrechende Ausgabegeschwindigkeit von 400 Tokens pro Sekunde erreicht und damit einen neuen globalen Maßstab für Schnittstellen großer Modelle setzt. Diese High-Speed-API, die ausgewählten Unternehmenskunden zur Verfügung steht, wird von einer leistungsstarken Inferenz-Engine angetrieben, die in Zusammenarbeit mit dem TileRT-Team entwickelt wurde. Die Engine optimiert die GPU-Planung, indem sie Modelle in persistente Engine-Kerne kompiliert, was die Latenz erheblich reduziert. In Multi-GPU-Umgebungen verbessert das TileRT-System die Effizienz, indem es GPU-Knoten in einer 8-GPU-NVL-Topologie spezialisiert, was die Berechnungen der Aufmerksamkeits-Schichten und die Kommunikation zwischen GPUs verbessert. Zhipu plant, die FP8-Inferenz weiter zu optimieren und die Kontextfähigkeiten zu erweitern, um Anwendungen mit niedriger Latenz wie KI-Programmierung und Echtzeit-Interaktionen zu unterstützen.

Quelle: Original anzeigen

Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.

Das könnte Ihnen auch gefallen