A Nous Research introduziu um novo método de pré-treinamento para grandes modelos, chamado Token Stacking Training (TST), que visa reduzir o tempo de pré-treinamento comprimindo tokens adjacentes em pacotes. Este método, validado em modelos com até 10 bilhões de parâmetros, acelera o treinamento de 2 a 3 vezes com o mesmo orçamento computacional. No entanto, surgiu controvérsia, pois o mecanismo do TST se assemelha muito a uma publicação de 2024, levando a alegações de plágio. Após a divulgação do seu artigo, a Nous Research reconheceu as semelhanças com o trabalho anterior, descrevendo-o como um "infeliz caso de pesquisa convergente." Eles se comprometeram a atualizar seu artigo com as citações apropriadas para resolver essas preocupações. O método TST, embora inovador, pode enfrentar limitações se os corpora de texto de alta qualidade se tornarem escassos, devido à sua natureza intensiva em dados.