MetaEra ha lanzado FlashKDA, un conjunto de herramientas de código abierto diseñado para acelerar la inferencia de modelos en GPUs de la serie NVIDIA Hopper, como las H100 y H20. FlashKDA, disponible en GitHub bajo la licencia MIT, está diseñado para KDA, un novedoso mecanismo de atención introducido por Moonshot AI. Este mecanismo, parte de la arquitectura del modelo Kimi Linear, alterna entre capas de atención KDA y tradicionales para optimizar la eficiencia computacional.
FlashKDA ha sido reescrito utilizando la biblioteca CUTLASS de NVIDIA para maximizar el rendimiento en GPUs Hopper, logrando una inferencia hacia adelante entre 1.7 y 2.2 veces más rápida en comparación con su implementación previa en Triton. La herramienta es especialmente efectiva en escenarios con longitudes de entrada variables y procesamiento por lotes. Sin embargo, actualmente solo soporta el paso hacia adelante, requiriendo la versión original de Triton para el entrenamiento. FlashKDA requiere GPUs Hopper o más recientes, CUDA 12.9+ y PyTorch 2.4+, y ha sido integrado en el repositorio flash-linear-attention, permitiendo a los usuarios cambiar con un simple cambio de configuración.
MetaEra publica FlashKDA como código abierto, mejorando la velocidad de inferencia de Kimi hasta 2.2 veces
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
