Sakana AIとNVIDIA、TwELLでGPU効率向上

Sakana AIはNVIDIAと協力して、効果のない計算をスキップすることでGPUの効率を向上させるオープンソースのスパースデータフォーマットおよびアクセラレーションカーネル「TwELL」を発表しました。この革新により、H100の推論速度が最大30％、トレーニング速度が最大24％向上し、モデルの精度を損なうことなく実現しています。TwELLは、大規模モデルのフィードフォワードネットワーク層における非効率性、すなわちテキスト生成時に80％以上のニューロンが非活性である問題に対処しています。 TwELLはデータを小さなブロックに分割し、GPUが効率的に処理できるようにすることでGPUの操作を最適化し、高コストなグローバルメモリ操作を排除します。15億パラメータのモデルでのテストでは、計算が必要なニューロンはわずか2％であり、複数のタスクにわたって性能を維持しました。モデルが大規模化するにつれて、この最適化はさらに大きな性能向上をもたらす可能性があり、大規模モデルでは活性ニューロンの割合が大幅に減少することが示されています。