Sapient Intelligence a rendu open source son modèle HRM-Text, un modèle de génération de texte de 1 milliard de paramètres basé sur l'architecture Hierarchical Reasoning Model (HRM). Ce modèle innovant réduit considérablement les coûts de pré-entraînement, de 130 à 600 fois par rapport aux modèles traditionnels, en réalisant l'entraînement avec seulement 40 milliards de tokens structurés. Le modèle peut être entraîné à partir de zéro en environ 46 heures en utilisant deux serveurs H100 équipés de 8 GPU chacun, pour un coût d'environ 1 472 $.
Le modèle HRM-Text présente une conception récurrente à double échelle temporelle, utilisant deux ensembles de modules Transformer qui alternent sur le même lot d'entrée, permettant une extension dynamique de la profondeur computationnelle. Cette conception facilite la validation à faible coût des théories de modèles auparavant entravée par des dépenses computationnelles élevées. La version open source inclut le cadre d'ingénierie complet, bien que les poids du modèle soient pré-entraînés et non alignés, limitant son utilisation aux tâches de continuation de préfixe.
Sapient publie en open source un modèle de texte HRM à 1 milliard de paramètres rentable
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
