Cerebras đã ra mắt mẫu Kimi K2.6, một mô hình lớn với hàng nghìn tỷ tham số, trong thử nghiệm doanh nghiệp, thể hiện sự tăng tốc đáng kể trong các tác vụ xử lý văn bản dài. Bằng cách tích hợp các chip trên một tấm wafer silicon 12 inch, mô hình này loại bỏ độ trễ kết nối, đạt tốc độ sinh token lên đến 981 token mỗi giây — nhanh hơn 6,7 lần so với các dịch vụ đám mây GPU phổ biến.
Trong các bài kiểm tra với 10.000 token đầu vào và 500 token đầu ra, Kimi K2.6 đã giảm thời gian phản hồi từ 163,7 giây xuống chỉ còn 5,6 giây, đánh dấu sự cải thiện gấp 29 lần. Kiến trúc của mô hình cho phép giao tiếp giữa các lớp trên mạng nội bộ của wafer, cung cấp băng thông lớn hơn 200 lần so với NVLink của NVIDIA. Điều này, kết hợp với tối ưu hóa tính toán phân tán và xử lý dữ liệu hiệu quả, cho phép hiệu suất thời gian thực với mất mát độ chính xác tối thiểu.
Mô hình Kimi K2.6 của Cerebras đạt tốc độ tăng 29 lần trong các tác vụ văn bản dài
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
