ZhipuはGLM-5.1高速APIを導入し、1秒あたり400トークンという画期的な出力速度を達成し、大規模モデルインターフェースの新たな世界基準を打ち立てました。この高速APIは選ばれた企業クライアント向けに提供されており、TileRTチームと共同開発した高性能推論エンジンによって駆動されています。このエンジンは、モデルを永続的なエンジンカーネルにコンパイルすることでGPUスケジューリングを最適化し、レイテンシを大幅に削減します。
マルチGPU環境では、TileRTシステムが8GPUのNVLトポロジーでGPUノードを専門化することで効率を向上させ、アテンションレイヤーの計算とGPU間通信を改善します。ZhipuはさらにFP8推論の最適化を進め、AIプログラミングやリアルタイムインタラクションなどの低レイテンシアプリケーションをサポートするためにコンテキスト機能の拡張を計画しています。
智譜、秒間400トークンの出力を記録したGLM-5.1 APIを発表
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
