Sapient Intelligenceは、階層的推論モデル(HRM)アーキテクチャに基づく10億パラメータのテキスト生成モデル「HRM-Text」をオープンソース化しました。この革新的なモデルは、従来のモデルと比較して事前学習コストを130倍から600倍削減し、わずか400億の構造化トークンでの学習を実現しています。このモデルは、2台の8GPU搭載H100サーバーを使用して約46時間でスクラッチから学習可能で、費用は約1,472ドルです。
HRM-Textモデルは、同じ入力バッチに対して交互に動作する2セットのトランスフォーマーモジュールを利用した二重タイムスケールのリカレント設計を特徴としており、動的な計算深度の拡張を可能にします。この設計により、これまで高い計算コストが障害となっていたモデル理論の低コスト検証が可能となっています。オープンソース版には完全なエンジニアリングフレームワークが含まれていますが、モデルの重みは事前学習済みで未調整のため、プレフィックス継続タスクに限定して使用されます。
Sapient、コスト効率の高い10億パラメータHRMテキストモデルをオープンソース化
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
