MetaEra ускоряет вывод Kimi с FlashKDA

MetaEra выпустила FlashKDA — набор инструментов с открытым исходным кодом, предназначенный для ускорения вывода моделей на графических процессорах NVIDIA серии Hopper, таких как H100 и H20. FlashKDA, доступный на GitHub под лицензией MIT, разработан специально для KDA — нового механизма внимания, представленного Moonshot AI. Этот механизм, являющийся частью архитектуры модели Kimi Linear, чередует слои KDA и традиционные слои внимания для оптимизации вычислительной эффективности. FlashKDA был переписан с использованием библиотеки CUTLASS от NVIDIA для максимизации производительности на GPU Hopper, достигая скорости вывода вперёд в 1,7–2,2 раза выше по сравнению с предыдущей реализацией на Triton. Этот инструмент особенно эффективен в сценариях с переменной длиной входных данных и пакетной обработкой. Однако в настоящее время он поддерживает только прямой проход, для обучения требуется оригинальная версия на Triton. FlashKDA требует GPU серии Hopper или новее, CUDA 12.9+ и PyTorch 2.4+, и был интегрирован в репозиторий flash-linear-attention, что позволяет пользователям переключаться с помощью простой настройки.

Вам также может понравиться