Nous Researchは、大規模モデル向けの新しい事前学習手法であるToken Stacking Training(TST)を発表しました。これは隣接するトークンを束に圧縮することで事前学習時間を短縮することを目的としています。この手法は最大100億パラメータのモデルで検証されており、同じ計算予算で学習速度を2〜3倍に加速します。しかし、TSTのメカニズムが2024年の論文と非常に類似していることから、盗用疑惑が浮上しました。 論文発表後、Nous Researchは先行研究との類似性を認め、「不幸な収束研究のケース」と表現しました。彼らはこれらの懸念に対応するため、適切な引用を加えて論文を更新することを約束しています。革新的なTST手法ですが、高品質なテキストコーパスが不足すると、そのデータ集約的な性質から制約を受ける可能性があります。