Investigadores del MIT, Princeton, Together AI y Meta han presentado CODA, una nueva abstracción de programación destinada a optimizar el entrenamiento de modelos Transformer. El estudio, titulado "CODA: Reescribiendo Bloques Transformer como Programas GEMM-Epilogue," se centra en reducir las operaciones intensivas en memoria y que consumen mucho tiempo durante el entrenamiento de Transformers mediante el uso de la programación GEMM-epílogo. Este enfoque permite la ejecución de cálculos adicionales durante la breve ventana en la que los resultados de la multiplicación de matrices aún están en los registros internos del chip, evitando así transferencias de memoria innecesarias. El marco de trabajo de CODA expone cinco operaciones primitivas composables en el epílogo, lo que permite la ejecución eficiente de casi todas las operaciones en las fases de avance y retroceso de un Transformer, excluyendo la atención. El estudio demuestra mejoras significativas en el rendimiento, con CODA logrando hasta 1.8 veces de aceleración en la retropropagación y entre un 5% y 20% de aceleración en el procesamiento completo de capas Transformer. Este avance destaca el potencial de los modelos de IA para optimizar su propia infraestructura de entrenamiento mediante abstracciones de programación bien diseñadas.