MetaEra acelera la inferencia de Kimi con FlashKDA

MetaEra ha lanzado FlashKDA, un conjunto de herramientas de código abierto diseñado para acelerar la inferencia de modelos en GPUs de la serie NVIDIA Hopper, como las H100 y H20. FlashKDA, disponible en GitHub bajo la licencia MIT, está diseñado para KDA, un novedoso mecanismo de atención introducido por Moonshot AI. Este mecanismo, parte de la arquitectura del modelo Kimi Linear, alterna entre capas de atención KDA y tradicionales para optimizar la eficiencia computacional. FlashKDA ha sido reescrito utilizando la biblioteca CUTLASS de NVIDIA para maximizar el rendimiento en GPUs Hopper, logrando una inferencia hacia adelante entre 1.7 y 2.2 veces más rápida en comparación con su implementación previa en Triton. La herramienta es especialmente efectiva en escenarios con longitudes de entrada variables y procesamiento por lotes. Sin embargo, actualmente solo soporta el paso hacia adelante, requiriendo la versión original de Triton para el entrenamiento. FlashKDA requiere GPUs Hopper o más recientes, CUDA 12.9+ y PyTorch 2.4+, y ha sido integrado en el repositorio flash-linear-attention, permitiendo a los usuarios cambiar con un simple cambio de configuración.

También te podría gustar