Zhipu presenta la API GLM-5.1 con una producción récord de 400 tokens/s

Zhipu ha presentado la API de alta velocidad GLM-5.1, alcanzando una velocidad de salida revolucionaria de 400 tokens por segundo, estableciendo un nuevo referente global para interfaces de modelos grandes. Esta API de alta velocidad, disponible para clientes empresariales selectos, está impulsada por un motor de inferencia de alto rendimiento desarrollado en colaboración con el equipo de TileRT. El motor optimiza la programación de la GPU compilando modelos en núcleos de motor persistentes, reduciendo significativamente la latencia. En entornos con múltiples GPU, el sistema TileRT mejora la eficiencia especializando nodos GPU en una topología NVL de 8 GPU, mejorando los cálculos de la capa de atención y la comunicación entre GPUs. Zhipu planea optimizar aún más la inferencia FP8 y ampliar las capacidades de contexto para soportar aplicaciones de baja latencia como la programación de IA y las interacciones en tiempo real.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.

También te podría gustar