Nhóm Qwen của Alibaba đã giới thiệu FlashQLA, một kernel chú ý tuyến tính hiệu suất cao được thiết kế để nâng cao xử lý AI trên các thiết bị cá nhân. Được phát hành vào ngày 29 tháng 4, FlashQLA được xây dựng trên TileLang và được cho là cung cấp tốc độ xử lý tiến nhanh hơn gấp 2–3 lần và tốc độ xử lý lùi nhanh gấp đôi. Kernel này tích hợp tính toán nội bộ trên thẻ dựa trên cổng và các tối ưu đại số thân thiện với phần cứng, mặc dù các chi tiết kỹ thuật cụ thể và giới hạn vẫn chưa được tiết lộ.
Đội ngũ Qwen của Alibaba ra mắt nhân tuyến tính FlashQLA Attention
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
