Nous ResearchのLighthouse AttentionがGPU速度を17倍に向上

Nous Researchは、B200 GPU上での計算を大幅に高速化する新しい事前学習メカニズムであるLighthouse Attentionをオープンソース化しました。この手法は、512K長のテキスト処理において従来の方法と比べて17倍の速度向上を実現しています。さらに、98K長のシーケンスに対しては1.4倍から1.7倍のトレーニング加速を提供します。Lighthouse Attentionは二段階のプロセスを採用しており、まず圧縮されたテキストの要約をスキャンして重要なセグメントを選択し、その後FlashAttentionを用いて処理します。この方法は低レベルのコーディングや追加のトレーニング目的を必要とせず、従来の加速技術の制約を克服しています。530百万パラメータのモデルを500億トークンで訓練したテストでは、トレーニング時間の短縮を示しつつ、ベースラインの性能を維持または上回る結果が得られました。