Sapient publie en open source un modèle HRM 1 milliard de paramètres

Sapient Intelligence a rendu open source son modèle HRM-Text, un modèle de génération de texte de 1 milliard de paramètres basé sur l'architecture Hierarchical Reasoning Model (HRM). Ce modèle innovant réduit considérablement les coûts de pré-entraînement, de 130 à 600 fois par rapport aux modèles traditionnels, en réalisant l'entraînement avec seulement 40 milliards de tokens structurés. Le modèle peut être entraîné à partir de zéro en environ 46 heures en utilisant deux serveurs H100 équipés de 8 GPU chacun, pour un coût d'environ 1 472 $. Le modèle HRM-Text présente une conception récurrente à double échelle temporelle, utilisant deux ensembles de modules Transformer qui alternent sur le même lot d'entrée, permettant une extension dynamique de la profondeur computationnelle. Cette conception facilite la validation à faible coût des théories de modèles auparavant entravée par des dépenses computationnelles élevées. La version open source inclut le cadre d'ingénierie complet, bien que les poids du modèle soient pré-entraînés et non alignés, limitant son utilisation aux tâches de continuation de préfixe.