O ex-aluno da Universidade de Tsinghua, Wang Guan, e sua equipe apresentaram o HRM-Text, uma nova abordagem de pré-treinamento que desafia os paradigmas tradicionais de grandes modelos. Utilizando um Modelo Recorrente Hierárquico (HRM), o HRM-Text alcança desempenho de ponta com recursos computacionais significativamente reduzidos. O modelo utiliza de 100 a 900 vezes menos tokens de treinamento e de 96 a 432 vezes menos poder computacional em comparação com modelos de 2 a 7 bilhões de parâmetros, mantendo resultados competitivos em benchmarks como MMLU e ARC-C.
A arquitetura do HRM-Text apresenta um modelo de escala de tempo dupla, dividindo o cálculo em módulos lentos e rápidos, permitindo múltiplas atualizações recursivas por token. Esse design, combinado com objetivos de treinamento direcionados, aumenta a eficiência do pré-treinamento. O custo de treinamento do modelo é de aproximadamente US$ 1.500, demonstrando sua relação custo-benefício. Apesar de suas conquistas, os desenvolvedores do HRM-Text reconhecem a necessidade de mais pesquisas para desvincular o conhecimento do raciocínio e explorar mecanismos de tempo de computação adaptativo.
HRM-Text da Tsinghua Alcança Avanço na Pré-Treinamento Eficiente de Modelos
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
