Sakana AI와 NVIDIA, TwELL로 GPU 효율 향상

Sakana AI는 NVIDIA와 협력하여 TwELL을 출시했습니다. TwELL은 비효율적인 계산을 건너뛰어 GPU 효율성을 향상시키는 오픈 소스 희소 데이터 형식 및 가속 커널입니다. 이 혁신은 모델 정확도를 손상시키지 않으면서 H100 추론 속도를 최대 30%, 학습 속도를 최대 24%까지 향상시킵니다. TwELL은 텍스트 생성 중 80% 이상의 뉴런이 비활성 상태인 대규모 모델의 피드포워드 네트워크 계층의 비효율성을 해결합니다. TwELL은 데이터를 작은 블록으로 나누어 GPU가 효율적으로 처리할 수 있도록 하여 비용이 많이 드는 전역 메모리 작업을 제거함으로써 GPU 작업을 최적화합니다. 15억 매개변수 모델에 대한 테스트에서 계산이 필요한 뉴런은 단 2%에 불과했으며, 여러 작업에서 성능을 유지했습니다. 모델이 확장됨에 따라 이 최적화는 더 큰 성능 향상을 가져올 수 있으며, 더 큰 모델에서는 활성 뉴런 비율이 크게 감소하는 것으로 나타났습니다.