PyTorch 팀은 TorchInductor의 네 번째 자동 튜닝 백엔드로 CuteDSL을 통합했다고 발표했습니다. 4월 7일에 공개된 이 결정은 CuteDSL의 최소한의 유지보수 부담, 효율적인 컴파일 시간, 그리고 대상 작업 부하에서의 향상된 성능을 기반으로 했습니다. NVIDIA가 개발한 CuteDSL은 기존 백엔드와 비교할 때 컴파일 시간이 비슷하거나 CUTLASS C++ 경로보다 빠른 최적화된 커널 템플릿을 제공합니다. Python으로 작성된 CuteDSL은 유지보수를 단순화하고 컴파일 속도를 가속화하면서 FP8 GEMM 및 에필로그 융합에서 강력한 성능을 유지합니다. 이번 통합은 Transformer 모델의 핵심 계산 요소인 GEMM 최적화에 중점을 두고 있으며, 수작업으로 조정된 템플릿을 통해 저수준 코드를 생성합니다. 이 접근법은 커널을 처음부터 작성할 필요를 없애고, 아키텍처별 기능을 지원하기 위해 스레드 및 메모리 계층을 완전히 활용합니다.