Nous Research đã giới thiệu một phương pháp tiền huấn luyện mới cho các mô hình lớn, gọi là Token Stacking Training (TST), nhằm giảm thời gian tiền huấn luyện bằng cách nén các token liền kề thành các gói. Phương pháp này, đã được xác thực trên các mô hình có tới 10 tỷ tham số, tăng tốc độ huấn luyện lên gấp 2 đến 3 lần với cùng một ngân sách tính toán. Tuy nhiên, đã xảy ra tranh cãi khi cơ chế của TST rất giống với một công bố năm 2024, dẫn đến cáo buộc đạo văn. Sau khi công bố bài báo của mình, Nous Research đã thừa nhận sự tương đồng với công trình trước đó, mô tả đây là một "trường hợp nghiên cứu hội tụ không may." Họ đã cam kết cập nhật bài báo của mình với các trích dẫn phù hợp để giải quyết những lo ngại này. Phương pháp TST, mặc dù sáng tạo, có thể gặp hạn chế nếu các tập dữ liệu văn bản chất lượng cao trở nên khan hiếm, do tính chất đòi hỏi nhiều dữ liệu của nó.