Sapient открывает исходный код модели HRM с 1 млрд параметров

Компания Sapient Intelligence опубликовала в открытом доступе модель HRM-Text — модель генерации текста с 1 миллиардом параметров, основанную на архитектуре иерархической модели рассуждений (Hierarchical Reasoning Model, HRM). Эта инновационная модель значительно снижает затраты на предварительное обучение — в 130–600 раз по сравнению с традиционными моделями, достигая обучения всего на 40 миллиардах структурированных токенов. Модель можно обучить с нуля примерно за 46 часов, используя два сервера с 8 GPU H100, что стоит около 1472 долларов. Модель HRM-Text обладает рекуррентной архитектурой с двумя временными масштабами, используя два набора модулей Transformer, которые чередуются на одном и том же входном батче, что позволяет динамически расширять вычислительную глубину. Такая конструкция облегчает недорогую проверку теорий модели, ранее затрудненную из-за высоких вычислительных затрат. В открытом доступе опубликована полная инженерная платформа, однако веса модели предварительно обучены и не выровнены, что ограничивает её использование задачами продолжения префикса.