CODA optimise l'entraînement Transformer avec GEMM-Epilogue

Des chercheurs du MIT, de Princeton, de Together AI et de Meta ont présenté CODA, une nouvelle abstraction de programmation visant à optimiser l'entraînement des modèles Transformer. L'étude, intitulée « CODA : Réécriture des blocs Transformer en programmes GEMM-Épilogue », se concentre sur la réduction des opérations gourmandes en mémoire et chronophages lors de l'entraînement des Transformers en exploitant la programmation GEMM-épilogue. Cette approche permet d'exécuter des calculs supplémentaires pendant la courte fenêtre où les résultats de la multiplication matricielle sont encore dans les registres intégrés, évitant ainsi des transferts mémoire inutiles. Le cadre CODA expose cinq opérations primitives composables à l'épilogue, permettant une exécution efficace de presque toutes les opérations lors des passes avant et arrière d'un Transformer, à l'exception de l'attention. L'étude démontre des améliorations de performance significatives, CODA atteignant jusqu'à 1,8 fois plus de rapidité en rétropropagation et une accélération de 5 % à 20 % dans le traitement complet des couches Transformer. Cette avancée souligne le potentiel des modèles d'IA à optimiser leur propre infrastructure d'entraînement grâce à des abstractions de programmation bien conçues.

Vous pourriez aussi aimer