A Nous Research introduziu um novo método de pré-treinamento para grandes modelos, chamado Token Stacking Training (TST), que visa reduzir o tempo de pré-treinamento comprimindo tokens adjacentes em pacotes. Este método, validado em modelos com até 10 bilhões de parâmetros, acelera o treinamento de 2 a 3 vezes com o mesmo orçamento computacional. No entanto, surgiu controvérsia, pois o mecanismo do TST se assemelha muito a uma publicação de 2024, levando a alegações de plágio.
Após a divulgação do seu artigo, a Nous Research reconheceu as semelhanças com o trabalho anterior, descrevendo-o como um "infeliz caso de pesquisa convergente." Eles se comprometeram a atualizar seu artigo com as citações apropriadas para resolver essas preocupações. O método TST, embora inovador, pode enfrentar limitações se os corpora de texto de alta qualidade se tornarem escassos, devido à sua natureza intensiva em dados.
Método de Treinamento Token Stacking da Nous Research Enfrenta Alegações de Plágio
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
