Компания Zhipu представила высокоскоростной API GLM-5.1, достигший прорывной скорости вывода в 400 токенов в секунду, что стало новым мировым эталоном для интерфейсов больших моделей. Этот высокоскоростной API, доступный для избранных корпоративных клиентов, работает на базе высокопроизводительного движка вывода, разработанного в сотрудничестве с командой TileRT. Движок оптимизирует планирование GPU, компилируя модели в постоянные ядра движка (Engine Kernels), что значительно снижает задержки. В многопроцессорных средах TileRT повышает эффективность за счет специализации узлов GPU в топологии NVL с 8 GPU, улучшая вычисления слоев внимания и межпроцессорное взаимодействие. Компания Zhipu планирует дальнейшую оптимизацию вывода FP8 и расширение возможностей контекста для поддержки приложений с низкой задержкой, таких как программирование ИИ и взаимодействие в реальном времени.