PyTorch Thêm CuteDSL làm Backend mới cho TorchInductor

Nhóm PyTorch đã công bố tích hợp CuteDSL như là backend điều chỉnh tự động thứ tư cho TorchInductor. Quyết định này, được tiết lộ vào ngày 7 tháng 4, dựa trên chi phí bảo trì tối thiểu của CuteDSL, thời gian biên dịch hiệu quả và hiệu suất cải thiện trên các khối lượng công việc mục tiêu. Được phát triển bởi NVIDIA, CuteDSL cung cấp các mẫu kernel tối ưu với thời gian biên dịch tương đương các backend hiện có và nhanh hơn so với đường dẫn CUTLASS C++. CuteDSL, được viết bằng Python, đơn giản hóa việc bảo trì và tăng tốc quá trình biên dịch trong khi vẫn duy trì hiệu suất mạnh mẽ trong FP8 GEMM và hợp nhất epilogue. Việc tích hợp tập trung vào tối ưu hóa GEMM, một thành phần tính toán chính trong các mô hình Transformer, bằng cách tạo mã cấp thấp thông qua các mẫu được điều chỉnh thủ công. Cách tiếp cận này loại bỏ nhu cầu viết kernel từ đầu và tận dụng tối đa các cấp độ luồng và bộ nhớ để hỗ trợ các tính năng đặc thù của kiến trúc.

Bạn cũng có thể thích