Sakana AI, phối hợp với NVIDIA, đã ra mắt TwELL, một định dạng dữ liệu thưa thớt mã nguồn mở và các nhân tăng tốc giúp nâng cao hiệu quả GPU bằng cách bỏ qua các phép tính không hiệu quả. Sáng kiến này tăng tốc độ suy luận trên H100 lên đến 30% và tốc độ huấn luyện lên đến 24%, mà không làm giảm độ chính xác của mô hình. TwELL giải quyết vấn đề kém hiệu quả trong các lớp mạng truyền thẳng của các mô hình lớn, nơi hơn 80% neuron không hoạt động trong quá trình tạo văn bản. TwELL tối ưu hóa các hoạt động GPU bằng cách chia dữ liệu thành các khối nhỏ, cho phép GPU xử lý hiệu quả và loại bỏ các thao tác bộ nhớ toàn cục tốn kém. Các thử nghiệm trên mô hình 1,5 tỷ tham số cho thấy chỉ có 2% neuron cần tính toán, duy trì hiệu suất trên nhiều nhiệm vụ. Khi các mô hình mở rộng quy mô, tối ưu hóa này có thể mang lại cải thiện hiệu suất lớn hơn nữa, với các mô hình lớn hơn cho thấy tỷ lệ neuron hoạt động giảm đáng kể.