Sapient Intelligence đã công khai mã nguồn mô hình HRM-Text của mình, một mô hình tạo văn bản với 1 tỷ tham số dựa trên kiến trúc Hierarchical Reasoning Model (HRM). Mô hình sáng tạo này giảm đáng kể chi phí tiền huấn luyện trước, thấp hơn từ 130 đến 600 lần so với các mô hình truyền thống, chỉ cần huấn luyện với 40 tỷ token có cấu trúc. Mô hình có thể được huấn luyện từ đầu trong khoảng 46 giờ sử dụng hai máy chủ H100 với 8 GPU mỗi máy, chi phí khoảng 1.472 đô la.
Mô hình HRM-Text có thiết kế hồi quy với hai thang thời gian, sử dụng hai bộ mô-đun Transformer thay phiên nhau trên cùng một lô dữ liệu đầu vào, cho phép mở rộng độ sâu tính toán một cách linh hoạt. Thiết kế này giúp xác thực các lý thuyết mô hình với chi phí thấp, điều trước đây bị hạn chế bởi chi phí tính toán cao. Phiên bản mã nguồn mở bao gồm toàn bộ khung kỹ thuật, mặc dù trọng số của mô hình đã được tiền huấn luyện và chưa được căn chỉnh, giới hạn việc sử dụng chỉ cho các tác vụ tiếp nối tiền tố.
Sapient Mở Mã Nguồn Mô Hình Văn Bản HRM 1 Tỷ Tham Số Tiết Kiệm Chi Phí
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
