Zhipu, 초당 400토큰 기록하는 GLM-5.1 API 공개

Zhipu는 초당 400토큰의 획기적인 출력 속도를 달성한 GLM-5.1 고속 API를 도입하여 대형 모델 인터페이스의 새로운 글로벌 기준을 세웠습니다. 이 고속 API는 일부 기업 고객에게 제공되며, TileRT 팀과 협력하여 개발한 고성능 추론 엔진에 의해 구동됩니다. 이 엔진은 모델을 지속적인 엔진 커널로 컴파일하여 GPU 스케줄링을 최적화함으로써 지연 시간을 크게 줄입니다. 멀티 GPU 환경에서 TileRT 시스템은 8-GPU NVL 토폴로지에서 GPU 노드를 전문화하여 효율성을 향상시키고, 어텐션 레이어 계산 및 GPU 간 통신을 개선합니다. Zhipu는 FP8 추론을 추가로 최적화하고 AI 프로그래밍 및 실시간 상호작용과 같은 저지연 애플리케이션을 지원하기 위해 컨텍스트 기능을 확장할 계획입니다.

출처: 원본 보기

면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.

함께 보면 좋은 콘텐츠