Zhipu ha presentado la API de alta velocidad GLM-5.1, alcanzando una velocidad de salida revolucionaria de 400 tokens por segundo, estableciendo un nuevo referente global para interfaces de modelos grandes. Esta API de alta velocidad, disponible para clientes empresariales selectos, está impulsada por un motor de inferencia de alto rendimiento desarrollado en colaboración con el equipo de TileRT. El motor optimiza la programación de la GPU compilando modelos en núcleos de motor persistentes, reduciendo significativamente la latencia. En entornos con múltiples GPU, el sistema TileRT mejora la eficiencia especializando nodos GPU en una topología NVL de 8 GPU, mejorando los cálculos de la capa de atención y la comunicación entre GPUs. Zhipu planea optimizar aún más la inferencia FP8 y ampliar las capacidades de contexto para soportar aplicaciones de baja latencia como la programación de IA y las interacciones en tiempo real.