Nous Research hat eine neue Vortrainingsmethode für große Modelle vorgestellt, das Token Stacking Training (TST), das darauf abzielt, die Vortrainingszeit zu verkürzen, indem benachbarte Tokens zu Bündeln komprimiert werden. Diese Methode, die an Modellen mit bis zu 10 Milliarden Parametern validiert wurde, beschleunigt das Training bei gleichem Rechenaufwand um das 2- bis 3-Fache. Allerdings entstand Kontroversen, da der Mechanismus von TST einer Veröffentlichung aus dem Jahr 2024 stark ähnelt, was zu Plagiatsvorwürfen führte. Nach der Veröffentlichung ihres Papiers räumte Nous Research die Ähnlichkeiten zu der früheren Arbeit ein und bezeichnete dies als einen "unglücklichen Fall konvergenter Forschung." Sie haben sich verpflichtet, ihr Papier mit entsprechenden Zitaten zu aktualisieren, um diese Bedenken auszuräumen. Die TST-Methode, obwohl innovativ, könnte auf Einschränkungen stoßen, falls hochwertige Textkorpora knapp werden, aufgrund ihres datenintensiven Charakters.