O ex-aluno da Universidade de Tsinghua, Wang Guan, e sua equipe apresentaram o HRM-Text, uma nova abordagem de pré-treinamento que desafia os paradigmas tradicionais de grandes modelos. Utilizando um Modelo Recorrente Hierárquico (HRM), o HRM-Text alcança desempenho de ponta com recursos computacionais significativamente reduzidos. O modelo utiliza de 100 a 900 vezes menos tokens de treinamento e de 96 a 432 vezes menos poder computacional em comparação com modelos de 2 a 7 bilhões de parâmetros, mantendo resultados competitivos em benchmarks como MMLU e ARC-C. A arquitetura do HRM-Text apresenta um modelo de escala de tempo dupla, dividindo o cálculo em módulos lentos e rápidos, permitindo múltiplas atualizações recursivas por token. Esse design, combinado com objetivos de treinamento direcionados, aumenta a eficiência do pré-treinamento. O custo de treinamento do modelo é de aproximadamente US$ 1.500, demonstrando sua relação custo-benefício. Apesar de suas conquistas, os desenvolvedores do HRM-Text reconhecem a necessidade de mais pesquisas para desvincular o conhecimento do raciocínio e explorar mecanismos de tempo de computação adaptativo.