Команда PyTorch объявила о интеграции CuteDSL в качестве четвертого бэкенда для автоматической настройки в TorchInductor. Это решение, озвученное 7 апреля, было основано на минимальных затратах на обслуживание CuteDSL, эффективном времени компиляции и улучшенной производительности на целевых нагрузках. Разработанный компанией NVIDIA, CuteDSL предлагает оптимизированные шаблоны ядер с временем компиляции, сопоставимым с существующими бэкендами, и быстрее, чем путь CUTLASS на C++.
CuteDSL, написанный на Python, упрощает обслуживание и ускоряет компиляцию, при этом сохраняя высокую производительность в FP8 GEMM и эпилоговой фузии. Интеграция сосредоточена на оптимизации GEMM — ключевого вычислительного компонента в моделях Transformer — путем генерации низкоуровневого кода с помощью вручную настроенных шаблонов. Такой подход исключает необходимость написания ядер с нуля и полностью использует иерархии потоков и памяти для поддержки архитектурно-специфических функций.
PyTorch интегрирует CuteDSL в качестве нового бэкенда для TorchInductor
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
