Выпускник Университета Цинхуа Ван Гуань и его команда представили HRM-Text — новый подход к предварительному обучению, который бросает вызов традиционным парадигмам больших моделей. Используя иерархическую рекуррентную модель (HRM), HRM-Text достигает передовых результатов при значительно меньших вычислительных ресурсах. Модель использует в 100–900 раз меньше обучающих токенов и в 96–432 раза меньше вычислительной мощности по сравнению с моделями с 2 до 7 миллиардов параметров, при этом сохраняя конкурентоспособные результаты на таких бенчмарках, как MMLU и ARC-C.
Архитектура HRM-Text включает модель с двумя временными масштабами, разделяющую вычисления на медленные и быстрые модули, что позволяет выполнять несколько рекурсивных обновлений на каждый токен. Этот дизайн в сочетании с целенаправленными задачами обучения повышает эффективность предварительного обучения. Стоимость обучения модели составляет примерно 1500 долларов, что демонстрирует её экономическую эффективность. Несмотря на достижения, разработчики HRM-Text признают необходимость дальнейших исследований для разделения знаний и рассуждений, а также изучения механизмов адаптивного времени вычислений.
HRM-Text Цинхуа добился прорыва в эффективном предварительном обучении моделей
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
