Nous Research a introduit une nouvelle méthode de préentraînement pour les grands modèles, appelée Token Stacking Training (TST), qui vise à réduire le temps de préentraînement en compressant les tokens adjacents en paquets. Cette méthode, validée sur des modèles allant jusqu'à 10 milliards de paramètres, accélère l'entraînement de 2 à 3 fois avec le même budget computationnel. Cependant, une controverse a éclaté car le mécanisme du TST ressemble étroitement à une publication de 2024, ce qui a conduit à des accusations de plagiat. Suite à la publication de leur article, Nous Research a reconnu les similitudes avec le travail antérieur, qualifiant cela de « cas malheureux de recherche convergente ». Ils se sont engagés à mettre à jour leur article avec les citations appropriées pour répondre à ces préoccupations. La méthode TST, bien qu'innovante, pourrait rencontrer des limites si les corpus textuels de haute qualité deviennent rares, en raison de sa nature gourmande en données.