Sakana AI & NVIDIA Optimisent l'Efficacité GPU avec TwELL

Sakana AI, en collaboration avec NVIDIA, a lancé TwELL, un format de données clairsemées open-source et des noyaux d'accélération qui améliorent l'efficacité des GPU en évitant les calculs inefficaces. Cette innovation augmente la vitesse d'inférence du H100 jusqu'à 30 % et la vitesse d'entraînement jusqu'à 24 %, sans compromettre la précision du modèle. TwELL répond à l'inefficacité des couches de réseau feedforward des grands modèles, où plus de 80 % des neurones restent inactifs lors de la génération de texte. TwELL optimise les opérations GPU en divisant les données en petits blocs, permettant aux GPU de les traiter efficacement et éliminant les opérations coûteuses en mémoire globale. Des tests sur un modèle de 1,5 milliard de paramètres ont montré que seulement 2 % des neurones nécessitaient un calcul, tout en maintenant les performances sur plusieurs tâches. À mesure que les modèles grandissent, cette optimisation pourrait offrir des améliorations de performance encore plus importantes, les modèles plus volumineux montrant une réduction significative du ratio de neurones actifs.