Компания Sapient Intelligence опубликовала в открытом доступе модель HRM-Text — модель генерации текста с 1 миллиардом параметров, основанную на архитектуре иерархической модели рассуждений (Hierarchical Reasoning Model, HRM). Эта инновационная модель значительно снижает затраты на предварительное обучение — в 130–600 раз по сравнению с традиционными моделями, достигая обучения всего на 40 миллиардах структурированных токенов. Модель можно обучить с нуля примерно за 46 часов, используя два сервера с 8 GPU H100, что стоит около 1472 долларов.
Модель HRM-Text обладает рекуррентной архитектурой с двумя временными масштабами, используя два набора модулей Transformer, которые чередуются на одном и том же входном батче, что позволяет динамически расширять вычислительную глубину. Такая конструкция облегчает недорогую проверку теорий модели, ранее затрудненную из-за высоких вычислительных затрат. В открытом доступе опубликована полная инженерная платформа, однако веса модели предварительно обучены и не выровнены, что ограничивает её использование задачами продолжения префикса.
Sapient открывает исходный код экономичной текстовой модели HRM с 1 миллиардом параметров
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
