Zhipu는 초당 400토큰의 획기적인 출력 속도를 달성한 GLM-5.1 고속 API를 도입하여 대형 모델 인터페이스의 새로운 글로벌 기준을 세웠습니다. 이 고속 API는 일부 기업 고객에게 제공되며, TileRT 팀과 협력하여 개발한 고성능 추론 엔진에 의해 구동됩니다. 이 엔진은 모델을 지속적인 엔진 커널로 컴파일하여 GPU 스케줄링을 최적화함으로써 지연 시간을 크게 줄입니다. 멀티 GPU 환경에서 TileRT 시스템은 8-GPU NVL 토폴로지에서 GPU 노드를 전문화하여 효율성을 향상시키고, 어텐션 레이어 계산 및 GPU 간 통신을 개선합니다. Zhipu는 FP8 추론을 추가로 최적화하고 AI 프로그래밍 및 실시간 상호작용과 같은 저지연 애플리케이션을 지원하기 위해 컨텍스트 기능을 확장할 계획입니다.