Nous Research đã công khai mã nguồn của Lighthouse Attention, một cơ chế tiền huấn luyện mới giúp tăng tốc đáng kể việc tính toán trên GPU B200. Phương pháp này đạt được tốc độ nhanh hơn 17 lần khi xử lý văn bản dài 512K so với các phương pháp truyền thống. Ngoài ra, nó còn cung cấp tốc độ huấn luyện tăng từ 1,4 đến 1,7 lần cho các chuỗi dài 98K. Lighthouse Attention sử dụng quy trình hai giai đoạn, ban đầu quét các bản tóm tắt văn bản đã được nén để chọn các đoạn chính, sau đó xử lý chúng bằng FlashAttention. Phương pháp này tránh được việc cần phải lập trình cấp thấp và các mục tiêu huấn luyện bổ sung, khắc phục những hạn chế của các kỹ thuật tăng tốc trước đây. Các thử nghiệm trên mô hình có 530 triệu tham số được huấn luyện trên 50 tỷ token đã chứng minh thời gian huấn luyện giảm trong khi vẫn duy trì hoặc vượt qua hiệu suất cơ bản.
Nghiên cứu của Nous giới thiệu Lighthouse Attention, tăng tốc GPU lên 17 lần
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
