Sapient veröffentlicht 1B-Parameter HRM-Textmodell

Sapient Intelligence hat sein HRM-Text-Modell als Open Source veröffentlicht, ein Textgenerierungsmodell mit 1 Milliarde Parametern, das auf der Hierarchical Reasoning Model (HRM)-Architektur basiert. Dieses innovative Modell reduziert die Vortrainingskosten im Vergleich zu traditionellen Modellen um das 130- bis 600-Fache und erreicht das Training mit nur 40 Milliarden strukturierten Tokens. Das Modell kann in etwa 46 Stunden von Grund auf mit zwei 8-GPU H100-Servern trainiert werden, was ungefähr 1.472 US-Dollar kostet. Das HRM-Text-Modell verfügt über ein rekurrentes Design mit zwei Zeitskalen und nutzt zwei Sätze von Transformer-Modulen, die sich bei demselben Eingabebatch abwechseln, was eine dynamische Erweiterung der Rechentiefe ermöglicht. Dieses Design erleichtert die kostengünstige Validierung von Modelltheorien, die zuvor durch hohe Rechenkosten behindert wurden. Die Open-Source-Veröffentlichung umfasst den vollständigen Engineering-Rahmen, obwohl die Modellgewichte vortrainiert und nicht ausgerichtet sind, was die Nutzung auf Aufgaben der Präfixfortsetzung beschränkt.