xAI GPU 활용 문제: 11% 효율로 작동

일론 머스크의 xAI는 현재 GPU 활용도에서 심각한 문제에 직면해 있으며, 현재 효율성은 단 11%에 불과합니다. 이 회사는 멤피스와 콜로서스 데이터 센터 전반에 걸쳐 H100 및 H200 모델을 포함한 약 55만 대의 NVIDIA GPU를 관리하고 있습니다. 인상적인 규모에도 불구하고 낮은 활용도는 xAI의 AI 소프트웨어 스택의 비효율성을 드러냅니다. 이러한 저활용은 방대한 수의 GPU 간 조정 문제에서 비롯되며, 이로 인해 유휴 시간과 데이터 전송 병목 현상이 발생합니다. 이 문제는 xAI만의 문제가 아니며, AI 업계 전반이 대규모 인프라 최적화에 어려움을 겪고 있습니다. 메타와 구글 같은 회사들이 40% 이상의 활용률을 달성하는 반면, xAI는 인프라와 소프트웨어 스택을 개선하여 효율성을 50%까지 높이는 것을 목표로 하고 있습니다. 일론 머스크는 또한 자체 칩 개발과 인텔 기술 활용을 통해 이러한 문제를 해결하려 하고 있습니다.