Компания Nous Research представила новый метод предварительного обучения больших моделей — Token Stacking Training (TST), который направлен на сокращение времени предварительного обучения за счёт сжатия соседних токенов в пакеты. Этот метод, проверенный на моделях с параметрами до 10 миллиардов, ускоряет обучение в 2–3 раза при том же вычислительном бюджете. Однако возникла полемика, так как механизм TST сильно напоминает публикацию 2024 года, что привело к обвинениям в плагиате.
После публикации своей статьи компания Nous Research признала сходство с предыдущей работой, назвав это «неудачным случаем конвергентных исследований». Они обязались обновить свою статью с соответствующими ссылками, чтобы устранить эти опасения. Метод TST, несмотря на инновационность, может столкнуться с ограничениями, если высококачественные текстовые корпуса станут дефицитными из-за своей требовательности к данным.
Метод обучения Token Stacking компании Nous Research обвиняют в плагиате
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
