Nous Research, büyük modeller için yeni bir ön eğitim yöntemi olan Token Stacking Training (TST)'yi tanıttı. Bu yöntem, bitişik tokenları paketler halinde sıkıştırarak ön eğitim süresini azaltmayı hedefliyor. 10 milyar parametreye kadar modellerde doğrulanan bu yöntem, aynı hesaplama bütçesi altında eğitimi 2 ila 3 kat hızlandırıyor. Ancak, TST'nin mekanizmasının 2024 yılında yayımlanmış bir çalışmaya çok benzemesi nedeniyle intihal iddialarıyla tartışmalar ortaya çıktı. Makale yayımlandıktan sonra, Nous Research benzerlikleri kabul etti ve bunu "talihsiz bir yakınsama araştırması vakası" olarak nitelendirdi. Bu endişeleri gidermek için makalelerini uygun atıflarla güncellemeyi taahhüt ettiler. Yenilikçi olmasına rağmen, TST yöntemi, yüksek kaliteli metin korpusları kıt hale gelirse, veri yoğun doğası nedeniyle sınırlamalarla karşılaşabilir.