A Zhipu lançou a API de Alta Velocidade GLM-5.1, alcançando uma velocidade revolucionária de saída de 400 tokens por segundo, estabelecendo um novo padrão global para interfaces de grandes modelos. Esta API de alta velocidade, disponível para clientes empresariais selecionados, é alimentada por um motor de inferência de alto desempenho desenvolvido em colaboração com a equipe TileRT. O motor otimiza o agendamento da GPU compilando modelos em Kernels de Motor persistentes, reduzindo significativamente a latência. Em ambientes multi-GPU, o sistema TileRT aumenta a eficiência ao especializar os nós GPU em uma topologia NVL de 8 GPUs, melhorando os cálculos da camada de atenção e a comunicação entre GPUs. A Zhipu planeja otimizar ainda mais a inferência FP8 e ampliar as capacidades de contexto para suportar aplicações de baixa latência, como programação de IA e interações em tempo real.