Sapient Intelligence hat sein HRM-Text-Modell als Open Source veröffentlicht, ein Textgenerierungsmodell mit 1 Milliarde Parametern, das auf der Hierarchical Reasoning Model (HRM)-Architektur basiert. Dieses innovative Modell reduziert die Vortrainingskosten im Vergleich zu traditionellen Modellen um das 130- bis 600-Fache und erreicht das Training mit nur 40 Milliarden strukturierten Tokens. Das Modell kann in etwa 46 Stunden von Grund auf mit zwei 8-GPU H100-Servern trainiert werden, was ungefähr 1.472 US-Dollar kostet.
Das HRM-Text-Modell verfügt über ein rekurrentes Design mit zwei Zeitskalen und nutzt zwei Sätze von Transformer-Modulen, die sich bei demselben Eingabebatch abwechseln, was eine dynamische Erweiterung der Rechentiefe ermöglicht. Dieses Design erleichtert die kostengünstige Validierung von Modelltheorien, die zuvor durch hohe Rechenkosten behindert wurden. Die Open-Source-Veröffentlichung umfasst den vollständigen Engineering-Rahmen, obwohl die Modellgewichte vortrainiert und nicht ausgerichtet sind, was die Nutzung auf Aufgaben der Präfixfortsetzung beschränkt.
Sapient veröffentlicht kostengünstiges HRM-Textmodell mit 1 Milliarde Parametern als Open Source
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
