Sakana AI DiffusionBlocks, GPU 메모리 사용량 감소

Sakana AI는 도쿄 대학과 협력하여 대규모 모델 훈련 시 GPU 메모리 사용량을 줄이기 위한 새로운 훈련 프레임워크인 DiffusionBlocks를 출시했습니다. 2026년 ICLR에서 발표된 DiffusionBlocks는 신경망을 모듈로 나누어 각 모듈을 독립적으로 훈련할 수 있게 합니다. 이 접근법은 블록 단위 업데이트를 가능하게 하여 VRAM 소비를 크게 줄이고, 메모리 사용량을 원래 요구량의 1/B로 감소시킵니다. 이 프레임워크는 깊은 모델에서 VRAM 요구 문제를 해결하기 위해 한 번에 하나의 블록만 로드하여 업데이트하고, 샘플링되지 않은 블록은 로드하지 않습니다. 실험 결과 이 방법은 VRAM 필요량을 줄일 뿐만 아니라 시각적 트랜스포머 및 텍스트 생성과 같은 작업에서 전통적인 훈련 성능과 동등하거나 더 뛰어난 성능을 보였습니다. 또한 DiffusionBlocks는 동적 수렴 과정을 시뮬레이션하여 순환 모델의 최적화 이점을 제공하며, 훈련 중 계산 비용을 줄입니다.

함께 보면 좋은 콘텐츠