Команда PyTorch объявила о интеграции CuteDSL в качестве четвертого бэкенда для автоматической настройки в TorchInductor. Это решение, озвученное 7 апреля, было основано на минимальных затратах на обслуживание CuteDSL, эффективном времени компиляции и улучшенной производительности на целевых нагрузках. Разработанный компанией NVIDIA, CuteDSL предлагает оптимизированные шаблоны ядер с временем компиляции, сопоставимым с существующими бэкендами, и быстрее, чем путь CUTLASS на C++. CuteDSL, написанный на Python, упрощает обслуживание и ускоряет компиляцию, при этом сохраняя высокую производительность в FP8 GEMM и эпилоговой фузии. Интеграция сосредоточена на оптимизации GEMM — ключевого вычислительного компонента в моделях Transformer — путем генерации низкоуровневого кода с помощью вручную настроенных шаблонов. Такой подход исключает необходимость написания ядер с нуля и полностью использует иерархии потоков и памяти для поддержки архитектурно-специфических функций.