Zhipu a lancé l'API haute vitesse GLM-5.1, atteignant une vitesse de sortie révolutionnaire de 400 tokens par seconde, établissant une nouvelle référence mondiale pour les interfaces de grands modèles. Cette API haute vitesse, disponible pour certains clients d'entreprise sélectionnés, est propulsée par un moteur d'inférence haute performance développé en collaboration avec l'équipe TileRT. Le moteur optimise la planification GPU en compilant les modèles en noyaux moteurs persistants, réduisant ainsi considérablement la latence.
Dans les environnements multi-GPU, le système TileRT améliore l'efficacité en spécialisant les nœuds GPU dans une topologie NVL à 8 GPU, améliorant les calculs des couches d'attention et la communication inter-GPU. Zhipu prévoit d'optimiser davantage l'inférence FP8 et d'étendre les capacités de contexte pour soutenir des applications à faible latence telles que la programmation IA et les interactions en temps réel.
Zhipu dévoile l'API GLM-5.1 avec un débit record de 400 tokens/s
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
