Der Absolvent der Tsinghua-Universität, Wang Guan, und sein Team haben HRM-Text vorgestellt, einen neuartigen Pretraining-Ansatz, der die traditionellen Paradigmen großer Modelle herausfordert. Durch die Nutzung eines hierarchischen rekurrenten Modells (HRM) erzielt HRM-Text eine Spitzenleistung bei deutlich reduziertem Rechenaufwand. Das Modell verwendet 100–900 Mal weniger Trainings-Tokens und 96–432 Mal weniger Rechenleistung im Vergleich zu Modellen mit 2 bis 7 Milliarden Parametern, während es wettbewerbsfähige Ergebnisse bei Benchmarks wie MMLU und ARC-C beibehält.
Die Architektur von HRM-Text zeichnet sich durch ein Modell mit zwei Zeitskalen aus, das die Berechnung in langsame und schnelle Module aufteilt und so mehrere rekursive Aktualisierungen pro Token ermöglicht. Dieses Design, kombiniert mit gezielten Trainingszielen, verbessert die Effizienz des Pretrainings. Die Trainingskosten des Modells liegen bei etwa 1.500 US-Dollar, was seine Kosteneffizienz unterstreicht. Trotz seiner Erfolge erkennen die Entwickler von HRM-Text die Notwendigkeit weiterer Forschung an, um Wissen vom Schlussfolgern zu entkoppeln und adaptive Berechnungszeitmechanismen zu erforschen.
HRM-Text von Tsinghua erzielt Durchbruch bei effizientem Modellvortraining
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
