Tsinghuas HRM-Text setzt neuen Effizienzstandard

Der Absolvent der Tsinghua-Universität, Wang Guan, und sein Team haben HRM-Text vorgestellt, einen neuartigen Pretraining-Ansatz, der die traditionellen Paradigmen großer Modelle herausfordert. Durch die Nutzung eines hierarchischen rekurrenten Modells (HRM) erzielt HRM-Text eine Spitzenleistung bei deutlich reduziertem Rechenaufwand. Das Modell verwendet 100–900 Mal weniger Trainings-Tokens und 96–432 Mal weniger Rechenleistung im Vergleich zu Modellen mit 2 bis 7 Milliarden Parametern, während es wettbewerbsfähige Ergebnisse bei Benchmarks wie MMLU und ARC-C beibehält. Die Architektur von HRM-Text zeichnet sich durch ein Modell mit zwei Zeitskalen aus, das die Berechnung in langsame und schnelle Module aufteilt und so mehrere rekursive Aktualisierungen pro Token ermöglicht. Dieses Design, kombiniert mit gezielten Trainingszielen, verbessert die Effizienz des Pretrainings. Die Trainingskosten des Modells liegen bei etwa 1.500 US-Dollar, was seine Kosteneffizienz unterstreicht. Trotz seiner Erfolge erkennen die Entwickler von HRM-Text die Notwendigkeit weiterer Forschung an, um Wissen vom Schlussfolgern zu entkoppeln und adaptive Berechnungszeitmechanismen zu erforschen.

Das könnte Ihnen auch gefallen