Выпускник Университета Цинхуа Ван Гуань и его команда представили HRM-Text — новый подход к предварительному обучению, который бросает вызов традиционным парадигмам больших моделей. Используя иерархическую рекуррентную модель (HRM), HRM-Text достигает передовых результатов при значительно меньших вычислительных ресурсах. Модель использует в 100–900 раз меньше обучающих токенов и в 96–432 раза меньше вычислительной мощности по сравнению с моделями с 2 до 7 миллиардов параметров, при этом сохраняя конкурентоспособные результаты на таких бенчмарках, как MMLU и ARC-C. Архитектура HRM-Text включает модель с двумя временными масштабами, разделяющую вычисления на медленные и быстрые модули, что позволяет выполнять несколько рекурсивных обновлений на каждый токен. Этот дизайн в сочетании с целенаправленными задачами обучения повышает эффективность предварительного обучения. Стоимость обучения модели составляет примерно 1500 долларов, что демонстрирует её экономическую эффективность. Несмотря на достижения, разработчики HRM-Text признают необходимость дальнейших исследований для разделения знаний и рассуждений, а также изучения механизмов адаптивного времени вычислений.