清華大学の卒業生である王冠氏と彼のチームは、従来の大規模モデルのパラダイムに挑戦する新しい事前学習手法「HRM-Text」を発表しました。階層的再帰モデル(HRM)を活用することで、HRM-Textは計算資源を大幅に削減しながら最先端の性能を達成しています。このモデルは、20億から70億パラメータを持つモデルと比較して、100〜900倍少ないトレーニングトークンと96〜432倍少ない計算量でありながら、MMLUやARC-Cなどのベンチマークで競争力のある結果を維持しています。
HRM-Textのアーキテクチャは、計算を遅いモジュールと速いモジュールに分割する二重時間スケールモデルを特徴としており、各トークンに対して複数回の再帰的更新を可能にしています。この設計は、ターゲットを絞ったトレーニング目標と組み合わせることで、事前学習の効率を高めています。モデルのトレーニングコストは約1,500ドルであり、そのコスト効率の良さを示しています。成果にもかかわらず、HRM-Textの開発者たちは、知識と推論を切り離すさらなる研究や、適応的計算時間メカニズムの探求が必要であることを認めています。
清華大学のHRM-Textが効率的なモデル事前学習で画期的成果を達成
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
