Sakana AI y NVIDIA Mejoran Eficiencia GPU con TwELL

Sakana AI, en colaboración con NVIDIA, ha lanzado TwELL, un formato de datos dispersos de código abierto y núcleos de aceleración que mejoran la eficiencia de la GPU al omitir cálculos ineficaces. Esta innovación aumenta la velocidad de inferencia del H100 hasta en un 30% y la velocidad de entrenamiento hasta en un 24%, sin comprometer la precisión del modelo. TwELL aborda la ineficiencia en las capas de redes feedforward de modelos grandes, donde más del 80% de las neuronas permanecen inactivas durante la generación de texto. TwELL optimiza las operaciones de la GPU dividiendo los datos en pequeños bloques, lo que permite que las GPUs los manejen de manera eficiente y elimina las costosas operaciones de memoria global. Las pruebas en un modelo de 1.5 mil millones de parámetros mostraron que solo el 2% de las neuronas requerían cálculo, manteniendo el rendimiento en múltiples tareas. A medida que los modelos escalan, esta optimización podría generar mejoras de rendimiento aún mayores, con modelos más grandes mostrando una reducción significativa en las proporciones de neuronas activas.