Zhipu Lança API GLM-5.1 com Produção Recorde de 400 Tokens/s

A Zhipu lançou a API de Alta Velocidade GLM-5.1, alcançando uma velocidade revolucionária de saída de 400 tokens por segundo, estabelecendo um novo padrão global para interfaces de grandes modelos. Esta API de alta velocidade, disponível para clientes empresariais selecionados, é alimentada por um motor de inferência de alto desempenho desenvolvido em colaboração com a equipe TileRT. O motor otimiza o agendamento da GPU compilando modelos em Kernels de Motor persistentes, reduzindo significativamente a latência. Em ambientes multi-GPU, o sistema TileRT aumenta a eficiência ao especializar os nós GPU em uma topologia NVL de 8 GPUs, melhorando os cálculos da camada de atenção e a comunicação entre GPUs. A Zhipu planeja otimizar ainda mais a inferência FP8 e ampliar as capacidades de contexto para suportar aplicações de baixa latência, como programação de IA e interações em tempo real.

Fonte: Mostrar original

Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

Você também pode gostar