Sapient Intelligenceは、階層的推論モデル(HRM)アーキテクチャに基づく10億パラメータのテキスト生成モデル「HRM-Text」をオープンソース化しました。この革新的なモデルは、従来のモデルと比較して事前学習コストを130倍から600倍削減し、わずか400億の構造化トークンでの学習を実現しています。このモデルは、2台の8GPU搭載H100サーバーを使用して約46時間でスクラッチから学習可能で、費用は約1,472ドルです。 HRM-Textモデルは、同じ入力バッチに対して交互に動作する2セットのトランスフォーマーモジュールを利用した二重タイムスケールのリカレント設計を特徴としており、動的な計算深度の拡張を可能にします。この設計により、これまで高い計算コストが障害となっていたモデル理論の低コスト検証が可能となっています。オープンソース版には完全なエンジニアリングフレームワークが含まれていますが、モデルの重みは事前学習済みで未調整のため、プレフィックス継続タスクに限定して使用されます。