Sakana AI, phối hợp với Đại học Tokyo, đã ra mắt DiffusionBlocks, một khung đào tạo mới nhằm giảm sử dụng bộ nhớ GPU trong việc đào tạo các mô hình lớn. Được công bố tại ICLR 2026, DiffusionBlocks chia mạng nơ-ron thành các mô-đun, cho phép đào tạo độc lập từng mô-đun. Phương pháp này giảm đáng kể lượng VRAM tiêu thụ bằng cách cho phép cập nhật theo từng khối, giảm sử dụng bộ nhớ xuống còn một phần B của yêu cầu ban đầu.
Khung này giải quyết thách thức về nhu cầu VRAM trong các mô hình sâu bằng cách chỉ tải một khối tại một thời điểm để cập nhật, để các khối không được lấy mẫu không được tải. Các thí nghiệm cho thấy phương pháp này không chỉ giảm nhu cầu VRAM mà còn đạt hiệu suất đào tạo tương đương hoặc vượt trội so với phương pháp truyền thống trong các nhiệm vụ như Transformer hình ảnh và tạo văn bản. Ngoài ra, DiffusionBlocks còn mang lại lợi ích tối ưu hóa cho các mô hình hồi tiếp bằng cách mô phỏng quá trình hội tụ động, giảm chi phí tính toán trong quá trình đào tạo.
Sakana AI Ra Mắt DiffusionBlocks Giúp Giảm Sử Dụng Bộ Nhớ GPU
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
