Компания Nous Research представила новый метод предварительного обучения больших моделей — Token Stacking Training (TST), который направлен на сокращение времени предварительного обучения за счёт сжатия соседних токенов в пакеты. Этот метод, проверенный на моделях с параметрами до 10 миллиардов, ускоряет обучение в 2–3 раза при том же вычислительном бюджете. Однако возникла полемика, так как механизм TST сильно напоминает публикацию 2024 года, что привело к обвинениям в плагиате. После публикации своей статьи компания Nous Research признала сходство с предыдущей работой, назвав это «неудачным случаем конвергентных исследований». Они обязались обновить свою статью с соответствующими ссылками, чтобы устранить эти опасения. Метод TST, несмотря на инновационность, может столкнуться с ограничениями, если высококачественные текстовые корпуса станут дефицитными из-за своей требовательности к данным.