Zhipu đã giới thiệu API Tốc độ cao GLM-5.1, đạt tốc độ đầu ra đột phá 400 token mỗi giây, đánh dấu một chuẩn mực toàn cầu mới cho các giao diện mô hình lớn. API tốc độ cao này, chỉ dành cho một số khách hàng doanh nghiệp được chọn, được hỗ trợ bởi một động cơ suy luận hiệu suất cao được phát triển phối hợp với nhóm TileRT. Động cơ này tối ưu hóa việc lập lịch GPU bằng cách biên dịch các mô hình thành các Engine Kernel cố định, giảm đáng kể độ trễ.
Trong môi trường đa GPU, hệ thống TileRT nâng cao hiệu quả bằng cách chuyên môn hóa các nút GPU trong cấu trúc NVL 8-GPU, cải thiện tính toán lớp chú ý và giao tiếp giữa các GPU. Zhipu dự định tiếp tục tối ưu hóa suy luận FP8 và mở rộng khả năng ngữ cảnh để hỗ trợ các ứng dụng độ trễ thấp như lập trình AI và tương tác thời gian thực.
Zhipu Ra Mắt API GLM-5.1 với Tốc Độ Xuất Dữ Liệu Kỷ Lục 400 Token/giây
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
