Nous Research hat eine neue Vortrainingsmethode für große Modelle vorgestellt, das Token Stacking Training (TST), das darauf abzielt, die Vortrainingszeit zu verkürzen, indem benachbarte Tokens zu Bündeln komprimiert werden. Diese Methode, die an Modellen mit bis zu 10 Milliarden Parametern validiert wurde, beschleunigt das Training bei gleichem Rechenaufwand um das 2- bis 3-Fache. Allerdings entstand Kontroversen, da der Mechanismus von TST einer Veröffentlichung aus dem Jahr 2024 stark ähnelt, was zu Plagiatsvorwürfen führte.
Nach der Veröffentlichung ihres Papiers räumte Nous Research die Ähnlichkeiten zu der früheren Arbeit ein und bezeichnete dies als einen "unglücklichen Fall konvergenter Forschung." Sie haben sich verpflichtet, ihr Papier mit entsprechenden Zitaten zu aktualisieren, um diese Bedenken auszuräumen. Die TST-Methode, obwohl innovativ, könnte auf Einschränkungen stoßen, falls hochwertige Textkorpora knapp werden, aufgrund ihres datenintensiven Charakters.
Die Token-Stacking-Trainingsmethode von Nous Research steht unter Plagiatsverdacht
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
