MetaEra đã phát hành FlashKDA, một bộ công cụ mã nguồn mở được thiết kế để tăng tốc suy luận mô hình trên các GPU dòng Hopper của NVIDIA, như H100 và H20. FlashKDA, có sẵn trên GitHub dưới giấy phép MIT, được tùy chỉnh cho KDA, một cơ chế chú ý mới do Moonshot AI giới thiệu. Cơ chế này, là một phần của kiến trúc mô hình Kimi Linear, luân phiên giữa KDA và các lớp chú ý truyền thống để tối ưu hóa hiệu quả tính toán.
FlashKDA đã được viết lại sử dụng thư viện CUTLASS của NVIDIA nhằm tối đa hóa hiệu suất trên các GPU Hopper, đạt tốc độ suy luận tiến nhanh hơn từ 1,7 đến 2,2 lần so với phiên bản Triton trước đó. Công cụ này đặc biệt hiệu quả trong các tình huống có độ dài đầu vào biến đổi và xử lý theo lô. Tuy nhiên, hiện tại nó chỉ hỗ trợ bước tiến, yêu cầu phiên bản Triton gốc để đào tạo. FlashKDA yêu cầu GPU Hopper hoặc mới hơn, CUDA 12.9+, và PyTorch 2.4+, và đã được tích hợp vào kho lưu trữ flash-linear-attention, cho phép người dùng chuyển đổi chỉ với một thay đổi cấu hình đơn giản.
MetaEra Mở Mã Nguồn FlashKDA, Tăng Tốc Độ Suy Diễn của Kimi Lên Đến 2,2 Lần
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
