Zhipu a lancé l'API haute vitesse GLM-5.1, atteignant une vitesse de sortie révolutionnaire de 400 tokens par seconde, établissant une nouvelle référence mondiale pour les interfaces de grands modèles. Cette API haute vitesse, disponible pour certains clients d'entreprise sélectionnés, est propulsée par un moteur d'inférence haute performance développé en collaboration avec l'équipe TileRT. Le moteur optimise la planification GPU en compilant les modèles en noyaux moteurs persistants, réduisant ainsi considérablement la latence. Dans les environnements multi-GPU, le système TileRT améliore l'efficacité en spécialisant les nœuds GPU dans une topologie NVL à 8 GPU, améliorant les calculs des couches d'attention et la communication inter-GPU. Zhipu prévoit d'optimiser davantage l'inférence FP8 et d'étendre les capacités de contexte pour soutenir des applications à faible latence telles que la programmation IA et les interactions en temps réel.