MetaEra выпустила FlashKDA — набор инструментов с открытым исходным кодом, предназначенный для ускорения вывода моделей на графических процессорах NVIDIA серии Hopper, таких как H100 и H20. FlashKDA, доступный на GitHub под лицензией MIT, разработан специально для KDA — нового механизма внимания, представленного Moonshot AI. Этот механизм, являющийся частью архитектуры модели Kimi Linear, чередует слои KDA и традиционные слои внимания для оптимизации вычислительной эффективности.
FlashKDA был переписан с использованием библиотеки CUTLASS от NVIDIA для максимизации производительности на GPU Hopper, достигая скорости вывода вперёд в 1,7–2,2 раза выше по сравнению с предыдущей реализацией на Triton. Этот инструмент особенно эффективен в сценариях с переменной длиной входных данных и пакетной обработкой. Однако в настоящее время он поддерживает только прямой проход, для обучения требуется оригинальная версия на Triton. FlashKDA требует GPU серии Hopper или новее, CUDA 12.9+ и PyTorch 2.4+, и был интегрирован в репозиторий flash-linear-attention, что позволяет пользователям переключаться с помощью простой настройки.
MetaEra открывает исходный код FlashKDA, увеличивая скорость вывода Kimi до 2,2 раза
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
