MetaEra, FlashKDA로 Kimi 추론 속도 향상

MetaEra는 H100 및 H20과 같은 NVIDIA Hopper 시리즈 GPU에서 모델 추론을 가속화하기 위해 설계된 오픈 소스 도구 세트인 FlashKDA를 출시했습니다. GitHub에서 MIT 라이선스 하에 제공되는 FlashKDA는 Moonshot AI가 도입한 새로운 주의 메커니즘인 KDA에 맞춰져 있습니다. 이 메커니즘은 Kimi Linear 모델 아키텍처의 일부로, 계산 효율성을 최적화하기 위해 KDA와 전통적인 주의 계층을 번갈아 사용합니다. FlashKDA는 NVIDIA의 CUTLASS 라이브러리를 사용하여 Hopper GPU에서 성능을 극대화하도록 다시 작성되었으며, 이전 Triton 구현에 비해 1.7배에서 2.2배 빠른 순방향 추론 속도를 달성했습니다. 이 도구는 입력 길이가 가변적이고 배치 처리되는 시나리오에서 특히 효과적입니다. 그러나 현재는 순방향 패스만 지원하며, 학습을 위해서는 원래의 Triton 버전이 필요합니다. FlashKDA는 Hopper 이상 GPU, CUDA 12.9 이상, PyTorch 2.4 이상이 필요하며, flash-linear-attention 저장소에 통합되어 간단한 구성 변경으로 사용자가 전환할 수 있습니다.

함께 보면 좋은 콘텐츠