Sakana AIのDiffusionBlocksがGPUメモリ使用量を削減

Sakana AIは東京大学と協力し、大規模モデルのトレーニングにおけるGPUメモリ使用量を削減することを目的とした新しいトレーニングフレームワーク「DiffusionBlocks」を発表しました。ICLR 2026で発表されたDiffusionBlocksは、ニューラルネットワークをモジュールに分割し、それぞれのモジュールを独立してトレーニングできるようにします。このアプローチにより、ブロック単位の更新が可能となり、VRAMの消費を大幅に削減し、元の必要量の1/Bにまでメモリ使用量を減らすことができます。このフレームワークは、深層モデルにおけるVRAMの要求に対処するため、更新時に一度に1つのブロックのみを読み込み、サンプリングされていないブロックは読み込まない仕組みを採用しています。実験では、この方法がVRAMの必要量を減らすだけでなく、視覚的トランスフォーマーやテキスト生成などのタスクにおいて従来のトレーニング性能と同等かそれ以上の成果を示すことが確認されています。さらに、DiffusionBlocksは動的な収束プロセスをシミュレートすることで再帰モデルの最適化にも寄与し、トレーニング時の計算コストを削減します。

​​こちらもおすすめ​​

こちらもおすすめ