ZhipuはGLM-5.1高速APIを導入し、1秒あたり400トークンという画期的な出力速度を達成し、大規模モデルインターフェースの新たな世界基準を打ち立てました。この高速APIは選ばれた企業クライアント向けに提供されており、TileRTチームと共同開発した高性能推論エンジンによって駆動されています。このエンジンは、モデルを永続的なエンジンカーネルにコンパイルすることでGPUスケジューリングを最適化し、レイテンシを大幅に削減します。 マルチGPU環境では、TileRTシステムが8GPUのNVLトポロジーでGPUノードを専門化することで効率を向上させ、アテンションレイヤーの計算とGPU間通信を改善します。ZhipuはさらにFP8推論の最適化を進め、AIプログラミングやリアルタイムインタラクションなどの低レイテンシアプリケーションをサポートするためにコンテキスト機能の拡張を計画しています。