Des chercheurs du MIT, de Princeton, de Together AI et de Meta ont présenté CODA, une nouvelle abstraction de programmation visant à optimiser l'entraînement des modèles Transformer. L'étude, intitulée « CODA : Réécriture des blocs Transformer en programmes GEMM-Épilogue », se concentre sur la réduction des opérations gourmandes en mémoire et chronophages lors de l'entraînement des Transformers en exploitant la programmation GEMM-épilogue. Cette approche permet d'exécuter des calculs supplémentaires pendant la courte fenêtre où les résultats de la multiplication matricielle sont encore dans les registres intégrés, évitant ainsi des transferts mémoire inutiles.
Le cadre CODA expose cinq opérations primitives composables à l'épilogue, permettant une exécution efficace de presque toutes les opérations lors des passes avant et arrière d'un Transformer, à l'exception de l'attention. L'étude démontre des améliorations de performance significatives, CODA atteignant jusqu'à 1,8 fois plus de rapidité en rétropropagation et une accélération de 5 % à 20 % dans le traitement complet des couches Transformer. Cette avancée souligne le potentiel des modèles d'IA à optimiser leur propre infrastructure d'entraînement grâce à des abstractions de programmation bien conçues.
CODA améliore l'entraînement des Transformers grâce à l'optimisation GEMM-Epilogue
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
